—title: 让 AI 接管你的电脑!这个 Agent 凭什么 2.3K Stars 还在涨
date: 2026-04-27 20:19:07
summary: title: 让 AI 接管你的电脑。3K Stars 还在涨 date: 2026-04-27 20:19:07 summary:
tags:
- Claude Code
- Hermes
- AI Agent
- 浏览器
- Git
- 开源
- macOS
- Python
- 微信转载
categories: - 转载—
只要人能点到的地方,AI 也能点。四角色协同架构 + Markdown Skills,桌面自动化新范式
只要人能点到的地方,AI 也能点。
01 一个现实问题
在国内,你想让 AI 帮你自动化操作某个 APP,大概率会遇到一个问题:
没有 API,没有 CLI,什么都调不了。
大厂们忙着建护城河,谁也不愿意把底层接口开放出来。于是,开发者们陷入了两难——
要么自己写 RPA 脚本,网页一改版就得重写,维护成本高得吓人。
要么只能干等着厂商开放接口,遥遥无期。
现在,有个开源项目给出了一条新路:让 AI 像人一样看屏幕、动鼠标、敲键盘。
它叫 TuriX-CUA,全称 Computer Use Agent(计算机操作智能体)。
开源不久,GitHub 已经拿下 2.3K+ Stars,还在快速涨。
GitHub 项目地址:https://github.com/TurixAI/TuriX-CUA

02 TuriX 是什么
简单说,TuriX 是一个基于视觉语言模型(VLM)的桌面自动化框架。
如果说大模型是 AI 的”大脑”,那 TuriX 就是 AI 的”眼睛和手”:
- • 看(See):每隔几秒截一张屏幕的图
- • 想(Think):分析当前屏幕内容,判断下一步该做什么
- • 动(Act):模拟鼠标点击、键盘输入,执行操作
它不同于传统 RPA 和 API 调用——只要人能点到的地方,TuriX 也能点。
跨平台支持:
- • ✅ macOS
- • ✅ Windows
- • ✅ Linux(Ubuntu 等发行版)

03 技术架构:四角色协同
TuriX 最硬核的地方,是它的 TuriX Parallelum 四角色协同架构。
大模型做 GUI 操作有个老问题:上下文太长、步骤多了就容易乱。TuriX 的解法是把任务拆成四个专业角色,各司其职:
角色分工
角色
职责
类比
Planner(规划者)
理解用户意图,制定分步计划
项目经理
Brain(大脑)
根据当前屏幕状态,决定具体操作
执行者
Evaluator(评估者)
评估每一步是否成功执行
质检员
Executor(执行者)
模拟鼠标键盘操作
操作工
并行执行流水线
光有角色分工还不够。TuriX 做了一个巧妙的设计——并行执行流水线:
当执行者在假设前一步成功的基础上执行第 N 步操作时,评估者同时对第 N-1 步进行评估。
这意味着:在检查上一步的同时,下一步已经在跑了。既保证了执行成功率,又不拖慢速度。
对比单线程”执行→检查→再执行”的模式,这个设计让 TuriX 的操作速度比同类方案快了不少。
04 关键技术创新
1. 结构化文本 + 截图双输入
纯靠截图识别屏幕元素,准确率不够高。
TuriX 基于 macOS 的 AXUIElement 框架,把屏幕上的组件、边框位置等信息转成结构化文本数据,和截图一起喂给大模型。
结果:模型能输出更精准的节点索引,点击准确率大幅提升。
2. 自微调视觉模型
团队发现,大多数现成的 VLM 模型做不到像素级的 GUI 操作。
于是,他们基于 Qwen2.5-VL-72B 进行了微调,在桌面自动化任务测试中表现更出色。
官方数据:
- • 在 OSWorld 风格的 Mac 基准测试中,成功率达到 80%
- • 在 OSWorld 基准测试中,成功率达到 64.2%
- • 内部测试集通过率超过 68%
3. Skills 机制
这是 TuriX 最让我兴奋的功能。
传统 RPA 需要你写代码脚本,而 TuriX 的 Skills 就是一堆 Markdown 文件:
1 | `--- |
流程是这样的:
- 你用大白话给 AI 说一次要做什么
- AI 磕磕绊绊地完成一次
- 3. 把操作流程沉淀成一个 Skill(Markdown 手册)
- 下次再干同样的活,直接调用 Skill,更快、更稳
相当于花十分钟教了一个聪明的徒弟,以后这活儿就是他的了。
4. 可恢复的内存压缩
长任务容易因为上下文太长而失控。
TuriX 引入了可恢复的内存压缩机制,把历史信息压缩存储,需要时再展开。这样既能处理长时间任务,又不会因为上下文爆炸而翻车。
05 实际能干什么
浏览器操作
- • 自动搜索 YouTube 视频并点赞
- • 批量打开网页、填写表单
- • 自动提交 GitHub Issue
日常应用
- • 微信自动通过好友验证请求
- • 邮件批量处理
- • 文档类应用操作
系统设置
- • Mac 系统偏好设置自动化
- • 文件批量整理
- • 跨应用数据搬运
集成到 Agent 框架
TuriX 不仅有自己的桌面应用,还能作为 Skill 接入各种 Agent 框架:
- • OpenClaw — 已在 ClawHub 发布官方技能包
- • Claude Code — 可直接调用
- • Hermes Agent — 支持集成
- • 其他支持 MCP 协议的框架
06 TuriX vs 竞品


TuriX 的优势:
- • 完全开源,架构灵活,可以当底层能力模块接入任意框架
- • 可随意更换视觉大模型底座,上限高
- • 对中文支持更友好
TuriX 的不足:
- • 操作时会抢鼠标(官方正在优化)
07 快速上手
方式 1:桌面应用(最简单)
访问官网下载对应系统的应用:
1 | `turix.ai` |
方式 2:源码运行
1 | `# 1. 克隆仓库 |
方式 3:接入 OpenClaw
1 | `# 下载 skill 安装包,解压后放到 OpenClaw 技能目录 |
08 路线图
TuriX 的迭代节奏很快,来看看他们的规划:
时间
功能
状态
2025 Q3
终止与恢复
✅ 已完成
2025 Q3
Windows 支持
✅ 已完成
2025 Q4
下一代 AI 模型
✅ 已完成
2025 Q4
规划器 + 多智能体架构
✅ 已完成
2026 Q1
Ollama 支持
✅ 已完成
2026 Q1
Skills 机制
✅ 已完成
2026 Q1
OpenClaw 技能
✅ 已完成
2026 Q1
Linux 支持
✅ 已完成
2026 Q2
浏览器自动化(类 Chrome)
🔄 规划中
2026 Q2
长期记忆
🔄 规划中
2026 Q2
示范学习
🔄 规划中
09 项目信息
- • GitHub:https://github.com/TurixAI/TuriX-CUA
- • 官网:https://turix.ai
- • OpenClaw Skill:https://clawhub.ai/Tongyu-Yan/turix-cua
写在最后
让 Agent 操纵 APP 的终极方案,底层 API 调用无疑是最稳定、最高效的。
但面对国内互联网处处建护城河的现实,CUA(计算机视觉操作)在未来一段时间内,就是最具普适性的自动化方案。
TuriX 的价值不只是”又一个 CUA 工具”——而是它把这套能力做成了标准化、可集成、可扩展的基础设施。
花十分钟教一个 AI 徒弟,以后这活儿就是他的了。
💬 本文评论区已开启,但暂无读者留言。
本文转载自微信公众号,如有侵权请联系删除。
- 标题:
- 作者: lxiol
- 创建于 : 2026-04-27 20:19:07
- 更新于 : 2026-04-29 20:21:28
- 链接: https://blog.lxiol.cn/2026/04/27/让-AI-接管你的电脑这个-Agent-凭什么-23K-Stars-还在涨/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
