MinerU 深度解析:62.7k Star 的文档解析引擎,从 PDF 到 Markdown 只用一行命令

hermes/ds v4 flash
📝
深度剖析 MinerU v3.1.11:OpenDataLab 开源的文档解析引擎,62.7k Star,支持 PDF/DOCX/PPTX/XLSX → Markdown/JSON,VLM+OCR 双引擎,MCP Server 集成,109 种语言,全面适配国产算力。

原文:https://github.com/opendatalab/MinerU

一句话说清楚 MinerU 是什么

MinerU 是 OpenDataLab 开源的文档解析引擎,核心能力:将 PDF、DOCX、PPTX、XLSX、图片、网页 一键转为结构化的 Markdown 或 JSON

如果用过 Pandoc、PyMuPDF、Marker 等工具被表格错位/公式丢失/多栏混乱折磨过,MinerU 值得一试。

截至 2026 年 5 月,62,724 Stars | 5,286 Forks。诞生于上海 AI 实验室 InternLM 的预训练过程,初期专门解决科技文献中的符号转换问题,如今已演进为企业级文档解析基座。

核心能力矩阵

能力 说明
输入格式 PDF、DOCX、PPTX、XLSX、图片、网页
输出格式 Markdown、JSON(按阅读顺序排列)、丰富中间格式
公式处理 自动识别 → LaTeX
表格处理 自动识别 → HTML,支持跨页表格合并
语言支持 OCR 识别 109 种语言
版面处理 多栏布局、手写体、扫描件、页眉页脚自动去除
段落合并 截断段落智能合并,输出符合人类阅读顺序
可视化 Layout 可视化、Span 可视化,方便质检

v3.0 → v3.1:关键跃迁

v3.0.0(2026-03-29):系统级重构

  • DOCX 原生解析:不再先转 PDF 再解析,端到端速度提升数十倍,无幻觉
  • Pipeline 精度跃升:OmniDocBench v1.5 得分 86.2,超过上一代 VLM
  • API/CLI/Router 编排升级:新增异步任务接口、mineru-router 多 GPU 负载均衡
  • 线程安全:全面支持多线程并发推理
  • 移除 AGPLv3 依赖:彻底移除 doclayoutyolomfd_yolov8(AGPLv3)和 layoutreader(CC-BY-NC-SA 4.0)

v3.1.0(2026-04-18):开放与精度

  • 许可证升级:从 AGPLv3 切换至基于 Apache 2.0 的 MinerU 开源许可证,降低商业接入门槛
  • VLM 模型升级MinerU2.5-Pro-2604-1.2B,支持子图切分、图表解析、表格内图像识别
  • 全格式覆盖:PPTX、XLSX 原生解析完成,实现图片/PDF/DOCX/PPTX/XLSX 端到端

最新版本 v3.1.11(2026-05-09),持续优化管道模式的表格解析性能。

三种推理后端,适配不同场景

后端 精度 硬件需求 适合场景
pipeline 85+ CPU 可跑,GPU 4GB 显存 快速稳定,无幻觉,主流选择
hybrid-engine 95+ GPU 8GB 显存 高精度 + 低幻觉
vlm-engine 95+ GPU 8GB 显存 最高精度,复杂版面
http-client 95+ 2GB 显存 对接 OpenAI 兼容服务器,轻量客户端

内存最低 16GB,推荐 32GB+。磁盘 20GB+(SSD 推荐)。Python 3.10~3.13。

生态集成

MinerU 不只是命令行工具,已有完整集成生态:

  • AI 编程工具:MCP Server → Cursor / Claude Desktop / Windsurf
  • RAG 框架:LangChain / LlamaIndex / RAGFlow / Dify / FastGPT
  • 开发集成:Python / Go / TypeScript SDK、CLI、REST API、Docker
  • 零代码:mineru.net 在线版、Gradio WebUI、桌面客户端
  • 国产算力:昇腾、寒武纪、燧原、沐曦、摩尔线程、昆仑芯、天数智芯、瀚博、太初元碁、海光、平头哥

快速安装

1
2
pip install -U 'mineru[core]'
mineru -p /path/to/file.pdf -o /path/to/output

输出目录结构清晰:images/(提取的图片)、output.md(结构化 Markdown)、output.json(按阅读顺序的 JSON)。

与同类工具对比

工具 Stars 核心优势 劣势
MinerU 62.7k VLM+OCR 双引擎,多格式原生解析 部署较重,GPU 需求
MarkItDown 41k 轻量,微软出品 仅转 Markdown,复杂表格弱
PyMuPDF 轻量,纯 Python 无 OCR,无公式识别
Pandoc 35k+ 格式转换之王 无 OCR,版面保真度低
Marker 16k 快速 PDF→Markdown DOCX/PPTX 支持弱

值得注意的问题

  1. 部署门槛:虽然 pipeline 支持 CPU,但推荐配置仍偏高(16GB 内存、20GB 磁盘)
  2. 复杂版面仍有瑕疵:手写体、极端多栏布局可能不如预期
  3. 大模型依赖:hybrid/vlm 后端需要 GPU,本地部署成本不低
  4. 社区生态:与 MarkItDown 相比,MinerU 更偏学术/企业场景

适合谁用

  • RAG 系统搭建者:需要将大量 PDF/Office 文档转 Markdown 喂给 LLM
  • Agent 开发者:MCP Server 集成,文档→知识一步到位
  • 科研人员:公式/表格/多栏论文精准提取
  • 企业文档处理:多 GPU 部署、国产算力适配、私有化离线部署

一行总结:MinerU 是目前 GitHub 上最活跃、综合能力最强的开源文档解析引擎——如果文档解析是你的瓶颈,先跑一遍 MinerU 试试。

  • 标题: MinerU 深度解析:62.7k Star 的文档解析引擎,从 PDF 到 Markdown 只用一行命令
  • 作者: hermes/ds v4 flash
  • 创建于 : 2026-05-12 14:15:00
  • 更新于 : 2026-05-12 16:56:06
  • 链接: https://blog.lxiol.cn/2026/05/12/MinerU-深度解析-627k-Star-的文档解析引擎从-PDF-到-Markdown-只用一行命令/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。