一行命令,让你的 Code Agent 会读PDF

张开发
2026/4/12 2:52:41 15 分钟阅读

分享文章

一行命令,让你的 Code Agent 会读PDF
一行命令让你的 Code Agent 会读文档Claude Code、Cursor、Kimi Code、Codex、Cline——现在大家写代码越来越依赖 Code Agent。但大模型有一个短板读不了 PDF。你丢给它一个 PDF 文件路径它只会告诉你这是个二进制文件我读不了。论文、技术文档、产品手册、扫描合同——全都打不开。解决方案只需要一行命令npx skillsaddtanis90/pdf-converter-mineru装完之后你的 Code Agent 就能直接读取、解析、总结任何 PDF 文件包括扫描件。这行命令做了什么npx skills add是 OpenClaw 的 Skill 安装命令。OpenClaw 是 Code Agent 的技能市场——类似 VS Code 的扩展商店但面向的是 AI 编程助手。这行命令会拉取一个叫pdf-converter-mineru的 Skill装到你本地的 skills 目录下。装好之后你的 Code Agent 就获得了一个新能力调用 MinerU Open API 把 PDF 转成 Markdown然后自己阅读和理解内容。整个过程对你来说是透明的。你不需要手动调用任何命令也不需要配置 MCP server——直接对你的 Code Agent 说帮我读这个 PDF就行。哪些 Code Agent 支持这个 Skill 基于 OpenClaw 的开放标准一次安装跨工具通用Code Agent支持情况Claude Code原生支持Cursor支持Cline支持Augment支持Kimi Code支持CodeBuddy支持Warp支持不管你日常用哪个 Code Agent装一次就行。它能做什么装完 Skill 之后你可以直接这样对你的 Code Agent 说读论文 帮我读一下 ./papers/attention-is-all-you-need.pdf总结核心贡献提取表格 把 quarterly-report.pdf 里的财务数据表格提取出来扫描件识别 这份扫描的合同 contract-scan.pdf帮我找到付款条款批量处理 把 ./docs/ 下所有 PDF 转成 MarkdownCode Agent 会自动判断用哪种模式小文件、快速阅读 →flash-extract免登录秒出结果大文件、需要保留表格和公式 →extract高精度模式你不需要记任何命令参数。为什么不用 MCP server给 Code Agent 加文档能力很多人第一反应是装个 MCP server。比如跑一个本地的 document parsing 服务配置 JSON再写好 tool 的 schema。能用但太重了。Skill 的优势是一行安装不需要 Docker、不需要额外进程、不需要配置文件零运维不用管服务是否在跑、端口有没有冲突跨工具通用同一个 Skill 在 Claude Code、Cursor、Kimi Code 里都能用自动选择策略Code Agent 自己决定用 flash 模式还是精度模式开箱即用装完直接说话就行MCP server 更适合需要长期运行、有复杂状态管理的场景。而读一份 PDF这种无状态的能力用 Skill 是更轻量的选择。底层的文档解析能力到底怎么样底层用的是 MinerU上海 AI Lab 开源的文档解析引擎GitHub 56000 StarsOmniDocBench 评测综合排名第一。MinerU 不是简单的文本提取工具。它是一个完整的 document AI 引擎核心能力包括版面分析双栏、三栏、混合排版都能正确识别表格识别复杂嵌套表格保留结构不会拆碎公式识别数学公式自动转 LaTeXOCR扫描件、拍照文档、图片型 PDF 都能处理支持 80 种语言多格式输出Markdown、Word、HTML、LaTeX、JSON如果你在做 RAG pipeline这意味着你可以直接在 Code Agent 里完成PDF → 结构化 Markdown → 向量化的前两步不用额外写 PDF 解析代码。如果你在选 best pdf parser for RAGMinerU 在表格还原和公式识别上的精度是大多数 Python PDF parser 做不到的。实际使用场景场景一读技术文档写代码你在用一个 API文档只有 PDF 版本。以前你得自己打开 PDF翻到对应章节再复制粘贴到对话里。现在 读一下 api-reference.pdf找到认证相关的部分然后帮我写一个 Python 的认证 clientCode Agent 会自己解析 PDF找到 auth 章节理解参数和流程然后直接写代码。场景二论文调研你要调研某个方向的 5 篇论文 把 ./papers/ 下面 5 篇 PDF 都读一遍给我一个对比表格列出每篇的方法、数据集、主要结果场景三处理扫描文档法务给了一堆扫描的合同 PDF你需要提取关键条款 读 contract-2024.pdf这是扫描件帮我提取合同金额、付款期限、违约条款MinerU 的 OCR 会先把扫描件转成文字Code Agent 再理解内容并提取你要的信息。场景四文档格式转换 把 report.pdf 转成 Word 发给我 把 paper.pdf 转成 Markdown 存到 ./output/ 把 slides.pptx 转成 Markdown支持 PDF、图片、DOCX、PPTX、Excel 等格式的输入。安装真的只有一行npx skillsaddtanis90/pdf-converter-mineru装完之后如果你本地还没有mineru-open-apiCLICode Agent 会自动检测并引导你安装——不需要你自己去查文档。flash-extract模式免登录可以直接用如果需要高精度模式大文件、导出 Word、批量处理Code Agent 也会提示你做认证。常见问题文件大小有限制吗flash-extract模式限制 10 MB / 20 页。extract模式支持 200 MB / 600 页覆盖绝大多数文档。支持中文文档吗默认就支持中英混排。MinerU 的 OCR 覆盖 80 种语言中日韩、阿拉伯语、泰语等都没问题。和直接用 MinerU CLI 有什么区别直接用 CLI 你需要自己敲命令、管理输出文件、再把结果贴给 AI。装了 Skill 之后Code Agent 自己完成整个流程——你只需要用自然语言描述你想做什么。和 MCP server 方案怎么选如果你已经有在跑的 MCP server 生态可以继续用。如果你只是想让 Code Agent 能读 PDFSkill 是更轻量的方案——一行命令搞定不需要额外的进程和配置。总结让 Code Agent 获得文档阅读能力不需要配 MCP server不需要写代码一行命令npx skillsaddtanis90/pdf-converter-mineru装完之后PDF、扫描件、Word、PPT、图片——直接丢给你的 Code Agent让它自己读。无论你用的是 Claude Code、Cursor、Kimi Code 还是 Cline同一个 Skill同一行命令。

更多文章