微软开源 MarkItDown:我为什么现在就要装这个工具
你每天都在和各种格式打交道——PDF、Word、Excel、PPT。每次想把内容提取出来,都要装不同的工具、找不同的在线转换网站。微软开源的 MarkItDown,一行命令解决所有格式转 Markdown 的问题。
你有没有过这种经历——
客户发来一份 Word 文档,你想提取里面的文字到笔记里,结果复制粘贴过来格式全乱。或者收到一份 PDF,想用 AI 处理一下,结果发现 AI 读不了 PDF 里的表格。
每次遇到这种事,不是去搜在线转换网站,就是装各种格式转换工具。
微软最近开源了一个工具,一行命令就把这事彻底解决了。
它叫 MarkItDown——把任意文件格式转成干净的 Markdown。
它到底能干什么?
一句话:你丢给它什么文件,它都给你吐出干净的 Markdown。
支持的格式包括:
- • 文档类: PDF、Word(.docx)、PowerPoint(.pptx)、Excel(.xlsx)
- • 网页类: HTML
- • 媒体类: 图片(OCR 识别文字)、音频(语音转文字)
- • 数据类: JSON、XML、CSV
- • 其他: ZIP 压缩包(自动解压转换)、YouTube 链接(提取字幕)
基本上,你能想到的格式它都支持。
安装就一行:
1 | `pip install markitdown` |
命令行用:
1 | `markitdown 你的文件.pdf > 输出.md` |
Python 里用:
1 | `from markitdown import MarkItDown |

但这还不是最厉害的
MarkItDown 有两个能力,让它不只是”又一个转换工具”。
1. MCP Server — 让 AI 直接读你的文件
MarkItDown 现在有官方的 MCP Server(Model Context Protocol),可以直接接入 Claude Desktop 等支持 MCP 的 AI 客户端。
什么意思?你在跟 Claude 聊天的时候,可以直接让它读取并转换你本地的文件——不用你提前手动处理。
对话流程不中断,文件转换在后台自动完成。
以前的工作流:收到文件 → 手动转格式 → 粘贴到 AI 对话框 → 处理
现在的工作流:收到文件 → 直接告诉 AI “帮我处理这个文件” → 搞定
2. 插件系统 — 按需扩展
0.1.0 版本引入了第三方插件支持。比如 markitdown-ocr 插件,可以给 PDF、Word、PPT、Excel 里的嵌入图片加上 OCR 能力,用 LLM Vision 提取图片中的文字。
这意味着:哪怕你的 PDF 里有扫描件截图,它也能把文字抠出来。
和其他工具比,好在哪?
你可能要说:格式转换的工具不是早就有了吗?pandoc 不好用吗?
好问题。对比一下:
能力MarkItDownpandoc在线转换网站安装方式pip install 一行搞定需要单独安装不用装,但要上传文件格式支持PDF/Word/Excel/PPT/图片/音频/YouTube文档互转为主通常只支持一两种AI 集成MCP Server 直连 Claude 等 AI无无插件扩展支持第三方插件有限无隐私本地运行,文件不上传本地运行文件上传到第三方服务器
核心差异:MarkItDown 是为 AI 时代设计的转换工具。 它不只是转换格式,而是让 AI 能直接消费你的文件。
我的建议
如果你满足以下任意一条,现在就该装:
- • 经常需要处理各种格式的文件
- • 在用 Claude、ChatGPT 等 AI 工具处理文档
- • 不想再把文件上传到在线转换网站
- • 开发中需要批量处理文件内容
一行命令的事:
1 | `pip install markitdown` |
装完你就知道,以前花在格式转换上的时间,全浪费了。
💬 本文评论区已开启,但暂无读者留言。
本文转载自微信公众号,如有侵权请联系删除。
- 标题: 微软开源 MarkItDown:我为什么现在就要装这个工具
- 作者: lxiol
- 创建于 : 2026-04-29 20:24:21
- 更新于 : 2026-05-12 16:07:04
- 链接: https://blog.lxiol.cn/2026/04/29/微软开源-MarkItDown我为什么现在就要装这个工具/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。