Kreuzberg CLI工具使用大全:从单文件提取到批处理的所有命令

张开发
2026/4/13 21:58:44 15 分钟阅读

分享文章

Kreuzberg CLI工具使用大全:从单文件提取到批处理的所有命令
Kreuzberg CLI工具使用大全从单文件提取到批处理的所有命令【免费下载链接】kreuzbergA polyglot document intelligence framework with a Rust core. Extract text, metadata, images, and structured information from PDFs, Office documents, images, and 91 formats. Available for Rust, Python, Ruby, Java, Go, PHP, Elixir, C#, R, C, TypeScript (Node/Bun/Wasm/Deno)- or use via CLI, REST API, or MCP server.项目地址: https://gitcode.com/gh_mirrors/kr/kreuzbergKreuzberg是一个多语言文档智能框架以Rust为核心支持从PDF、Office文档、图像等91种格式中提取文本、元数据、图像和结构化信息。其CLI工具提供了简单高效的文档处理能力适合新手和普通用户快速上手。安装Kreuzberg CLI要开始使用Kreuzberg CLI首先需要安装它。你可以通过以下方式获取从源码构建git clone https://gitcode.com/gh_mirrors/kr/kreuzberg cd kreuzberg cargo build --release -p kreuzberg-cli构建完成后可执行文件位于target/release/kreuzberg。你可以将其添加到系统PATH中方便全局使用。Kreuzberg CLI支持多种文档格式的处理包括PDF、Office文档、图像等。基本命令格式Kreuzberg CLI的基本命令格式如下kreuzberg [OPTIONS] COMMAND [ARGS]你可以通过kreuzberg --help查看所有可用命令和选项。单文件提取命令提取文档文本最常用的功能是提取文档中的文本。使用extract命令kreuzberg extract --format text input.pdf这个命令会将input.pdf中的文本提取并输出到控制台。提取文档元数据要提取文档的元数据使用metadata命令kreuzberg metadata input.docx这将显示文档的标题、作者、创建日期等元数据信息。提取图像从文档中提取图像使用images命令kreuzberg images --output-dir ./extracted_images input.pdf这会将PDF中的所有图像提取出来并保存到./extracted_images目录。OCR处理图像文档对于扫描的PDF或图像文件Kreuzberg CLI提供了OCR功能kreuzberg extract --ocr --format text scanned_document.png高级提取选项指定输出格式Kreuzberg支持多种输出格式如markdown、json等kreuzberg extract --format markdown input.pdf -o output.md提取表格数据要专门提取文档中的表格数据可以使用--tables选项kreuzberg extract --tables input.pdf分页提取如果只需要提取文档的特定页面可以使用--pages选项kreuzberg extract --pages 1-5,10 input.pdf批处理命令处理目录中的所有文件要处理一个目录中的所有支持的文件可以使用batch命令kreuzberg batch --input-dir ./documents --output-dir ./results自定义批处理配置你可以创建一个配置文件来自定义批处理过程kreuzberg batch --config batch_config.toml配置文件示例input_dir ./documents output_dir ./results format markdown ocr true实用技巧进度显示在处理大型文档或批量文件时可以使用--progress选项显示处理进度kreuzberg batch --input-dir ./large_docs --progress静默模式如果需要在脚本中使用Kreuzberg CLI可以使用--quiet选项减少输出kreuzberg extract --quiet input.pdf -o output.txt帮助命令忘记命令用法时可以随时使用--help选项获取帮助kreuzberg extract --help总结Kreuzberg CLI提供了从简单到复杂的各种文档处理功能无论是单文件提取还是批量处理都能满足你的需求。通过本文介绍的命令和技巧你可以轻松开始使用这个强大的文档智能工具。更多详细信息请参考官方文档docs/concepts/extraction-pipeline.md 和 docs/cli/usage.md。【免费下载链接】kreuzbergA polyglot document intelligence framework with a Rust core. Extract text, metadata, images, and structured information from PDFs, Office documents, images, and 91 formats. Available for Rust, Python, Ruby, Java, Go, PHP, Elixir, C#, R, C, TypeScript (Node/Bun/Wasm/Deno)- or use via CLI, REST API, or MCP server.项目地址: https://gitcode.com/gh_mirrors/kr/kreuzberg创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

更多文章