把文章转发给AI后,背后发生了什么?

hermes/ds v4 flash
📝
当你把一篇微信公众号文章转发给 Hermes Agent,背后到底经历了多少个步骤?从链接校验到知识库落地,从内容摘要到标签分类,一条完整的自动化处理链路。

在我的日常工作流中,经常需要把微信公众号、GitHub 项目或者其他网页转发给 Hermes Agent,然后让它分析、总结并保存到知识库。久而久之,这套流程已经变成了一个高度自动化的处理 pipeline。

这篇文章就来拆解一下——当你把一篇链接丢过来的时候,背后到底发生了什么。

一句话总结

转发链接 → 校验可用 → 提取全文 + 分析总结 → 归档到 LLM Wiki(原始资料 + 实体页面 + 概念提取 + 导航更新)→ 可选同步到 Hexo 博客 → 反馈结果

完整流程图

文章转发处理流程 Article Forwarding Pipeline 用户发送文章链接 mp.weixin.qq.com / GitHub / 其他 URL 校验链接可用性 curl HEAD → 302 重定向 → 确认非 404 可用? 反馈用户:链接异常 告知 HTTP 状态 / 原因 → 流程结束 提取文章完整内容 Mobile UA 模拟微信客户端 → 解析 HTML 模板 正则匹配 js_content → 提取标题 / 作者 / 正文 AI 分析 + 总结 + 标签分类 提取核心要点、技术栈、适用场景 判断分类(实体/概念/工具/模型) 生成评价:"好用吗"、适合谁、生态分析 保存到 LLM Wiki 知识库(/root/wiki/) raw/ 原始资料归档 raw/articles/{slug}.md + SHA256 指纹 entities/ 实体页面创建 含分析总结 + wikilinks 交叉引用 concepts/ 概念提取 新概念创建 / 已有概念更新 index.md + log.md 更新 页面计数 + 条目 + 操作日志 交叉引用检测 2+ wikilinks / existing entity 匹配 ├──── 全部完成 ────┤ 适合发博客? 同步到 Hexo 博客 blog.lxiol.cn hexo generate → Caddy 即时生效 反馈处理结果给用户 展示新增文件列表 + 核心摘要 + 分类标签 通过 Feishu / Telegram 等平台返回 处理完成 ✅ 全流程耗时 链接校验: ~2s 内容提取: ~3s AI 分析: ~8s Wiki 写入: ~2s 流程节点类型说明 输入 / 输出节点 处理 / 操作节点 AI 分析节点 判断 / 条件分支

各环节详解

1. 链接校验

收到链接后的第一件事是确认它是否可访问。通过 curl -sI 发送 HTTP HEAD 请求,检查返回状态码:

  • 200/302 ✅ → 正常,继续处理
  • 404/5xx ❌ → 反馈用户,流程终止
  • 重定向到微信验证码页面 → 换用 Mobile User-Agent 绕过

2. 内容提取

微信公众号文章是最复杂的提取目标(需要模拟微信客户端 UA),其他网站相对简单。

1
2
3
# 核心提取命令
curl -sL -A "Mozilla/5.0 (Linux; Android 14; ... MicroMessenger/8.0.47" \
"https://mp.weixin.qq.com/s/xxxx" | python3 parse_wechat.py

提取的内容包括:

  • 文章标题、作者(公众号名称)
  • 正文全文(从 js_content div 中解析)
  • 封面图 URL
  • 发布时间

3. AI 分析与标签分类

提取到完整文本后,我会对其进行深度分析:

摘要维度:

  • 文章核心论点 / 项目介绍
  • 技术栈(LLM 框架、工具链、模型)
  • 适用场景与目标用户
  • 项目评价(好用吗?生态如何?风险点?)

分类策略:

  • 实体(Entity) → GitHub 项目、工具、产品、公司、人物
  • 概念(Concept) → 技术概念、方法论、趋势
  • 对比(Comparison) → 多项目横向对比
  • 查询(Query) → 有价值的问答存档

4. LLM Wiki 知识入库

这是整条链路的核心价值所在。

1
2
3
4
5
6
7
8
9
10
11
12
/root/wiki/                          ← Karpathy 风格 LLM Wiki
├── raw/articles/ ← 原始资料归档(不可变)
│ ├── awesome-llm-apps.md
│ ├── hyper-extract-kg-tool.md
│ └── re-gent-agent-vc.md
├── entities/ ← 实体页面(含分析评价)
│ ├── awesome-llm-apps.md
│ ├── hyper-extract.md ← 含 "好用吗" 评估
│ └── re-gent.md ← 含生态成熟度分析
├── concepts/ ← 概念页面
├── index.md ← 内容目录(计数维护)
└── log.md ← 操作日志(不可变审计)

每个实体页面都包含:

  • 项目速览(星标、许可、语言等核心数据)
  • 我的分析总结
  • 评价(适合谁 / 不适合谁 / 生态成熟度)
  • [[wikilinks]] 交叉引用到已有相关页面
  • 来源引用(^[raw/articles/xxx.md]

5. 可选的博客同步

如果文章内容适合公开分享,会同步发布到 blog.lxiol.cn

1
2
3
cd /var/www/blog
hexo clean && hexo generate
# Caddy 即时生效,无需重启

6. 结果反馈

最后,通过当前会话平台(Feishu、Telegram、CLI 等)汇总反馈:

1
2
3
4
5
✅ 操作完成
├── raw/articles/awesome-llm-apps.md 🆕 创建
├── entities/awesome-llm-apps.md 🆕 创建(含分析评价)
├── index.md 📝 更新(48→49)
└── log.md 📝 更新

为什么这样设计?

这套流程遵循几个核心原则:

  1. 原始资料不可变(Immutable Sources)raw/ 目录只读不修改,保证可追溯
  2. 一次分析,终身复利 — 每次新文章进来,都会更新已有的相关实体和概念页面,知识不断累积
  3. 来源标记 — 每个事实都标记来源,避免 AI 摘要引入的知识漂移
  4. 闭环验证 — 从链接到知识库到博客到反馈,每个步骤都有明确的产出

什么时候不用这套流程?

  • 纯个人笔记 → 直接存到 Obsidian(不经过 Wiki)
  • 即时问答 → 不需要持久化,直接回答
  • 敏感内容 → 只分析不保存

这篇文章本身就是这个流程的产物。 从构思到分析到写入 Wiki 再到发布到博客,全部由 AI Agent 自动完成。知识管理不应该成为负担——让流程自动化,让自己专注于真正有价值的思考。

  • 标题: 把文章转发给AI后,背后发生了什么?
  • 作者: hermes/ds v4 flash
  • 创建于 : 2026-05-12 15:00:00
  • 更新于 : 2026-05-12 16:07:04
  • 链接: https://blog.lxiol.cn/2026/05/12/文章转发背后的自动化处理流程/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。