一行命令，让你的 Code Agent 会读PDF

张开发

• 2026/4/12 2:52:41 • 15 分钟阅读

分享文章

一行命令让你的 Code Agent 会读文档Claude Code、Cursor、Kimi Code、Codex、Cline——现在大家写代码越来越依赖 Code Agent。但大模型有一个短板读不了 PDF。你丢给它一个 PDF 文件路径它只会告诉你这是个二进制文件我读不了。论文、技术文档、产品手册、扫描合同——全都打不开。解决方案只需要一行命令npx skillsaddtanis90/pdf-converter-mineru装完之后你的 Code Agent 就能直接读取、解析、总结任何 PDF 文件包括扫描件。这行命令做了什么npx skills add是 OpenClaw 的 Skill 安装命令。OpenClaw 是 Code Agent 的技能市场——类似 VS Code 的扩展商店但面向的是 AI 编程助手。这行命令会拉取一个叫pdf-converter-mineru的 Skill装到你本地的 skills 目录下。装好之后你的 Code Agent 就获得了一个新能力调用 MinerU Open API 把 PDF 转成 Markdown然后自己阅读和理解内容。整个过程对你来说是透明的。你不需要手动调用任何命令也不需要配置 MCP server——直接对你的 Code Agent 说帮我读这个 PDF就行。哪些 Code Agent 支持这个 Skill 基于 OpenClaw 的开放标准一次安装跨工具通用Code Agent支持情况Claude Code原生支持Cursor支持Cline支持Augment支持Kimi Code支持CodeBuddy支持Warp支持不管你日常用哪个 Code Agent装一次就行。它能做什么装完 Skill 之后你可以直接这样对你的 Code Agent 说读论文帮我读一下 ./papers/attention-is-all-you-need.pdf总结核心贡献提取表格把 quarterly-report.pdf 里的财务数据表格提取出来扫描件识别这份扫描的合同 contract-scan.pdf帮我找到付款条款批量处理把 ./docs/ 下所有 PDF 转成 MarkdownCode Agent 会自动判断用哪种模式小文件、快速阅读 →flash-extract免登录秒出结果大文件、需要保留表格和公式 →extract高精度模式你不需要记任何命令参数。为什么不用 MCP server给 Code Agent 加文档能力很多人第一反应是装个 MCP server。比如跑一个本地的 document parsing 服务配置 JSON再写好 tool 的 schema。能用但太重了。Skill 的优势是一行安装不需要 Docker、不需要额外进程、不需要配置文件零运维不用管服务是否在跑、端口有没有冲突跨工具通用同一个 Skill 在 Claude Code、Cursor、Kimi Code 里都能用自动选择策略Code Agent 自己决定用 flash 模式还是精度模式开箱即用装完直接说话就行MCP server 更适合需要长期运行、有复杂状态管理的场景。而读一份 PDF这种无状态的能力用 Skill 是更轻量的选择。底层的文档解析能力到底怎么样底层用的是 MinerU上海 AI Lab 开源的文档解析引擎GitHub 56000 StarsOmniDocBench 评测综合排名第一。MinerU 不是简单的文本提取工具。它是一个完整的 document AI 引擎核心能力包括版面分析双栏、三栏、混合排版都能正确识别表格识别复杂嵌套表格保留结构不会拆碎公式识别数学公式自动转 LaTeXOCR扫描件、拍照文档、图片型 PDF 都能处理支持 80 种语言多格式输出Markdown、Word、HTML、LaTeX、JSON如果你在做 RAG pipeline这意味着你可以直接在 Code Agent 里完成PDF → 结构化 Markdown → 向量化的前两步不用额外写 PDF 解析代码。如果你在选 best pdf parser for RAGMinerU 在表格还原和公式识别上的精度是大多数 Python PDF parser 做不到的。实际使用场景场景一读技术文档写代码你在用一个 API文档只有 PDF 版本。以前你得自己打开 PDF翻到对应章节再复制粘贴到对话里。现在读一下 api-reference.pdf找到认证相关的部分然后帮我写一个 Python 的认证 clientCode Agent 会自己解析 PDF找到 auth 章节理解参数和流程然后直接写代码。场景二论文调研你要调研某个方向的 5 篇论文把 ./papers/ 下面 5 篇 PDF 都读一遍给我一个对比表格列出每篇的方法、数据集、主要结果场景三处理扫描文档法务给了一堆扫描的合同 PDF你需要提取关键条款读 contract-2024.pdf这是扫描件帮我提取合同金额、付款期限、违约条款MinerU 的 OCR 会先把扫描件转成文字Code Agent 再理解内容并提取你要的信息。场景四文档格式转换把 report.pdf 转成 Word 发给我把 paper.pdf 转成 Markdown 存到 ./output/ 把 slides.pptx 转成 Markdown支持 PDF、图片、DOCX、PPTX、Excel 等格式的输入。安装真的只有一行npx skillsaddtanis90/pdf-converter-mineru装完之后如果你本地还没有mineru-open-apiCLICode Agent 会自动检测并引导你安装——不需要你自己去查文档。flash-extract模式免登录可以直接用如果需要高精度模式大文件、导出 Word、批量处理Code Agent 也会提示你做认证。常见问题文件大小有限制吗flash-extract模式限制 10 MB / 20 页。extract模式支持 200 MB / 600 页覆盖绝大多数文档。支持中文文档吗默认就支持中英混排。MinerU 的 OCR 覆盖 80 种语言中日韩、阿拉伯语、泰语等都没问题。和直接用 MinerU CLI 有什么区别直接用 CLI 你需要自己敲命令、管理输出文件、再把结果贴给 AI。装了 Skill 之后Code Agent 自己完成整个流程——你只需要用自然语言描述你想做什么。和 MCP server 方案怎么选如果你已经有在跑的 MCP server 生态可以继续用。如果你只是想让 Code Agent 能读 PDFSkill 是更轻量的方案——一行命令搞定不需要额外的进程和配置。总结让 Code Agent 获得文档阅读能力不需要配 MCP server不需要写代码一行命令npx skillsaddtanis90/pdf-converter-mineru装完之后PDF、扫描件、Word、PPT、图片——直接丢给你的 Code Agent让它自己读。无论你用的是 Claude Code、Cursor、Kimi Code 还是 Cline同一个 Skill同一行命令。

更多文章

前端开发 2026/4/12 2:45:46

377. Java IO API - 什么是 Glob？——轻量级的文件名匹配语法

文章目录377. Java IO API - 什么是 Glob？——轻量级的文件名匹配语法🧵 基本规则说明🧪 示例讲解⚠️ 注意事项✅ 实战演示：筛选 .java 文件📚 延伸阅读377. Java IO API - 什么是 Glob？——轻量级的文件名…

LGTV Companion终极指南：让你的LG电视与电脑智能联动的完整解决方案【免费下载链接】LGTVCompanion Power On and Off WebOS LG TVs together with your PC 项目地址: https://gitcode.com/gh_mirrors/lg/LGTVCompanion 你是否曾经梦想过这样的场景&#xf…

张开发

前端开发 2026/4/10 21:29:11

UL4200A是美国针对纽扣电池安全标准

UL 4200A-2023 是美国针对含纽扣 / 硬币电池消费品的强制性安全标准（16 CFR 1263），核心是防儿童开启防误吞，2024 年 3 月 19 日起美国市场强制合规。一、标准核心信息全称：ANSI/UL 4200A-2023《含纽扣 / 硬币电池消费…

张开发

一行命令，让你的 Code Agent 会读PDF

最新文章

从51到32位DSP核：手把手移植你的老8051项目到STC32G144K246（Ai8052U）

Python asyncio 并发下载任务设计

PPO-Lagrangian安全强化学习实战：从原理到代码的深度拆解

使用Matlab与AI股票分析师daily_stock_analysis进行量化策略研究

数据库创新探索

IotNetESP32：面向i-ot.net平台的嵌入式物联网连接抽象库

推荐文章

Spring with AI (): 定制对话——Prompt模板引入技

【AI原生研发灰度发布黄金法则】：20年架构师亲授7步闭环策略，规避92%的线上事故风险

PS3游戏更新下载器完整指南：如何轻松获取官方游戏补丁

别再手动除草了！用Python+OpenCV部署一个田间杂草实时检测系统

YOLO 系列：YOLOv8 引入 DyHead 动态检测头，统一目标检测与旋转框检测

21天机器学习核心算法学习计划（量化方向）

相关文章

别再让PDF图片丢失了！Dify二次开发实战：优化知识库的图文混合检索能力

热点 | Harness 架构深度解析：AI智能体编排框架的核心原理

【Python时序预测实战】融合LSTM与Transformer：从模型构建到单变量预测全流程解析

MySQL分区表实战：从原理到高效数据管理

CSRankings区域筛选功能深度解析：如何找到全球最佳CS研究机构

OpCore-Simplify：让开源系统硬件适配从8小时到30分钟的技术革命

分享文章

更多文章

377. Java IO API - 什么是 Glob？——轻量级的文件名匹配语法

你的终端神器之Oh My Zsh颈

通俗易懂讲透批量梯度下降法（BGD）

3步掌握艾尔登法环调试工具：从新手到模组开发者的实战指南

Axure RP 中文语言包完整指南：3步实现专业界面本地化

含源码|基于MATLAB的多尺度Retinex去雾系统（5种算法对比+改进算法效果验证）

Win11Debloat终极指南：5个简单步骤让Windows系统更清爽高效

告别Process调用！用pythonnet在C#中直接运行Python代码的完整指南

多元函数可微性：从定义到应用的全面解析

AI原生软件投资回报率怎么算？92%的CTO正在用错这4个基准参数（附ISO/IEC 25010兼容性校验表）

LGTV Companion终极指南：让你的LG电视与电脑智能联动的完整解决方案

UL4200A是美国针对纽扣电池安全标准