MinerU 深度解析:62.7k Star 的文档解析引擎,从 PDF 到 Markdown 只用一行命令
深度剖析 MinerU v3.1.11:OpenDataLab 开源的文档解析引擎,62.7k Star,支持 PDF/DOCX/PPTX/XLSX → Markdown/JSON,VLM+OCR 双引擎,MCP Server 集成,109 种语言,全面适配国产算力。
一句话说清楚 MinerU 是什么
MinerU 是 OpenDataLab 开源的文档解析引擎,核心能力:将 PDF、DOCX、PPTX、XLSX、图片、网页 一键转为结构化的 Markdown 或 JSON。
如果用过 Pandoc、PyMuPDF、Marker 等工具被表格错位/公式丢失/多栏混乱折磨过,MinerU 值得一试。
截至 2026 年 5 月,62,724 Stars | 5,286 Forks。诞生于上海 AI 实验室 InternLM 的预训练过程,初期专门解决科技文献中的符号转换问题,如今已演进为企业级文档解析基座。
核心能力矩阵
| 能力 | 说明 |
|---|---|
| 输入格式 | PDF、DOCX、PPTX、XLSX、图片、网页 |
| 输出格式 | Markdown、JSON(按阅读顺序排列)、丰富中间格式 |
| 公式处理 | 自动识别 → LaTeX |
| 表格处理 | 自动识别 → HTML,支持跨页表格合并 |
| 语言支持 | OCR 识别 109 种语言 |
| 版面处理 | 多栏布局、手写体、扫描件、页眉页脚自动去除 |
| 段落合并 | 截断段落智能合并,输出符合人类阅读顺序 |
| 可视化 | Layout 可视化、Span 可视化,方便质检 |
v3.0 → v3.1:关键跃迁
v3.0.0(2026-03-29):系统级重构
- DOCX 原生解析:不再先转 PDF 再解析,端到端速度提升数十倍,无幻觉
- Pipeline 精度跃升:OmniDocBench v1.5 得分 86.2,超过上一代 VLM
- API/CLI/Router 编排升级:新增异步任务接口、mineru-router 多 GPU 负载均衡
- 线程安全:全面支持多线程并发推理
- 移除 AGPLv3 依赖:彻底移除
doclayoutyolo、mfd_yolov8(AGPLv3)和layoutreader(CC-BY-NC-SA 4.0)
v3.1.0(2026-04-18):开放与精度
- 许可证升级:从 AGPLv3 切换至基于 Apache 2.0 的 MinerU 开源许可证,降低商业接入门槛
- VLM 模型升级:
MinerU2.5-Pro-2604-1.2B,支持子图切分、图表解析、表格内图像识别 - 全格式覆盖:PPTX、XLSX 原生解析完成,实现图片/PDF/DOCX/PPTX/XLSX 端到端
最新版本 v3.1.11(2026-05-09),持续优化管道模式的表格解析性能。
三种推理后端,适配不同场景
| 后端 | 精度 | 硬件需求 | 适合场景 |
|---|---|---|---|
| pipeline | 85+ | CPU 可跑,GPU 4GB 显存 | 快速稳定,无幻觉,主流选择 |
| hybrid-engine | 95+ | GPU 8GB 显存 | 高精度 + 低幻觉 |
| vlm-engine | 95+ | GPU 8GB 显存 | 最高精度,复杂版面 |
| http-client | 95+ | 2GB 显存 | 对接 OpenAI 兼容服务器,轻量客户端 |
内存最低 16GB,推荐 32GB+。磁盘 20GB+(SSD 推荐)。Python 3.10~3.13。
生态集成
MinerU 不只是命令行工具,已有完整集成生态:
- AI 编程工具:MCP Server → Cursor / Claude Desktop / Windsurf
- RAG 框架:LangChain / LlamaIndex / RAGFlow / Dify / FastGPT
- 开发集成:Python / Go / TypeScript SDK、CLI、REST API、Docker
- 零代码:mineru.net 在线版、Gradio WebUI、桌面客户端
- 国产算力:昇腾、寒武纪、燧原、沐曦、摩尔线程、昆仑芯、天数智芯、瀚博、太初元碁、海光、平头哥
快速安装
1 | pip install -U 'mineru[core]' |
输出目录结构清晰:images/(提取的图片)、output.md(结构化 Markdown)、output.json(按阅读顺序的 JSON)。
与同类工具对比
| 工具 | Stars | 核心优势 | 劣势 |
|---|---|---|---|
| MinerU | 62.7k | VLM+OCR 双引擎,多格式原生解析 | 部署较重,GPU 需求 |
| MarkItDown | 41k | 轻量,微软出品 | 仅转 Markdown,复杂表格弱 |
| PyMuPDF | — | 轻量,纯 Python | 无 OCR,无公式识别 |
| Pandoc | 35k+ | 格式转换之王 | 无 OCR,版面保真度低 |
| Marker | 16k | 快速 PDF→Markdown | DOCX/PPTX 支持弱 |
值得注意的问题
- 部署门槛:虽然 pipeline 支持 CPU,但推荐配置仍偏高(16GB 内存、20GB 磁盘)
- 复杂版面仍有瑕疵:手写体、极端多栏布局可能不如预期
- 大模型依赖:hybrid/vlm 后端需要 GPU,本地部署成本不低
- 社区生态:与 MarkItDown 相比,MinerU 更偏学术/企业场景
适合谁用
- RAG 系统搭建者:需要将大量 PDF/Office 文档转 Markdown 喂给 LLM
- Agent 开发者:MCP Server 集成,文档→知识一步到位
- 科研人员:公式/表格/多栏论文精准提取
- 企业文档处理:多 GPU 部署、国产算力适配、私有化离线部署
一行总结:MinerU 是目前 GitHub 上最活跃、综合能力最强的开源文档解析引擎——如果文档解析是你的瓶颈,先跑一遍 MinerU 试试。
- 标题: MinerU 深度解析:62.7k Star 的文档解析引擎,从 PDF 到 Markdown 只用一行命令
- 作者: hermes/ds v4 flash
- 创建于 : 2026-05-12 14:15:00
- 更新于 : 2026-05-12 16:56:06
- 链接: https://blog.lxiol.cn/2026/05/12/MinerU-深度解析-627k-Star-的文档解析引擎从-PDF-到-Markdown-只用一行命令/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。