lxiol

—title: 让 AI 接管你的电脑!这个 Agent 凭什么 2.3K Stars 还在涨
date: 2026-04-27 20:19:07
summary: title: 让 AI 接管你的电脑。3K Stars 还在涨 date: 2026-04-27 20:19:07 summary:
tags:

  • Claude Code
  • Hermes
  • AI Agent
  • 浏览器
  • Git
  • 开源
  • macOS
  • Python
  • 微信转载
    categories:
  • 转载—

原文链接:https://mp.weixin.qq.com/s/Mim-2yXSAK2NhYBfaHycNA

只要人能点到的地方,AI 也能点。四角色协同架构 + Markdown Skills,桌面自动化新范式

只要人能点到的地方,AI 也能点。

01 一个现实问题

在国内,你想让 AI 帮你自动化操作某个 APP,大概率会遇到一个问题:

没有 API,没有 CLI,什么都调不了。

大厂们忙着建护城河,谁也不愿意把底层接口开放出来。于是,开发者们陷入了两难——

要么自己写 RPA 脚本,网页一改版就得重写,维护成本高得吓人。
要么只能干等着厂商开放接口,遥遥无期。

现在,有个开源项目给出了一条新路:让 AI 像人一样看屏幕、动鼠标、敲键盘。

它叫 TuriX-CUA,全称 Computer Use Agent(计算机操作智能体)。

开源不久,GitHub 已经拿下 2.3K+ Stars,还在快速涨。

GitHub 项目地址:https://github.com/TurixAI/TuriX-CUA

02 TuriX 是什么

简单说,TuriX 是一个基于视觉语言模型(VLM)的桌面自动化框架

如果说大模型是 AI 的”大脑”,那 TuriX 就是 AI 的”眼睛和手”:

  • • 看(See):每隔几秒截一张屏幕的图
  • • 想(Think):分析当前屏幕内容,判断下一步该做什么
  • • 动(Act):模拟鼠标点击、键盘输入,执行操作

它不同于传统 RPA 和 API 调用——只要人能点到的地方,TuriX 也能点

跨平台支持:

  • • ✅ macOS
  • • ✅ Windows
  • • ✅ Linux(Ubuntu 等发行版)
  • TuriX SuperPower app demo

03 技术架构:四角色协同

TuriX 最硬核的地方,是它的 TuriX Parallelum 四角色协同架构

大模型做 GUI 操作有个老问题:上下文太长、步骤多了就容易乱。TuriX 的解法是把任务拆成四个专业角色,各司其职:

角色分工

角色

职责

类比
Planner(规划者)
理解用户意图,制定分步计划

项目经理
Brain(大脑)
根据当前屏幕状态,决定具体操作

执行者
Evaluator(评估者)
评估每一步是否成功执行

质检员
Executor(执行者)
模拟鼠标键盘操作

操作工

并行执行流水线

光有角色分工还不够。TuriX 做了一个巧妙的设计——并行执行流水线

当执行者在假设前一步成功的基础上执行第 N 步操作时,评估者同时对第 N-1 步进行评估。

这意味着:在检查上一步的同时,下一步已经在跑了。既保证了执行成功率,又不拖慢速度。

对比单线程”执行→检查→再执行”的模式,这个设计让 TuriX 的操作速度比同类方案快了不少。

04 关键技术创新

1. 结构化文本 + 截图双输入

纯靠截图识别屏幕元素,准确率不够高。

TuriX 基于 macOS 的 AXUIElement 框架,把屏幕上的组件、边框位置等信息转成结构化文本数据,和截图一起喂给大模型。

结果:模型能输出更精准的节点索引,点击准确率大幅提升。

2. 自微调视觉模型

团队发现,大多数现成的 VLM 模型做不到像素级的 GUI 操作。

于是,他们基于 Qwen2.5-VL-72B 进行了微调,在桌面自动化任务测试中表现更出色。

官方数据:

  • • 在 OSWorld 风格的 Mac 基准测试中,成功率达到 80%
  • • 在 OSWorld 基准测试中,成功率达到 64.2%
  • • 内部测试集通过率超过 68%

3. Skills 机制

这是 TuriX 最让我兴奋的功能。

传统 RPA 需要你写代码脚本,而 TuriX 的 Skills 就是一堆 Markdown 文件

1
2
3
4
5
6
7
8
9
`---
name: github-web-actions
description: 用于在浏览器中操作 GitHub(搜索仓库、点 Star 等)。
---

# GitHub Web Actions
- 打开 GitHub,使用站内搜索并进入仓库页面。
- 若需要登录,先向用户确认再继续。
- 在继续之前确认 Star 按钮状态。`

流程是这样的:

    1. 你用大白话给 AI 说一次要做什么
    1. AI 磕磕绊绊地完成一次
  • 3. 把操作流程沉淀成一个 Skill(Markdown 手册)
    1. 下次再干同样的活,直接调用 Skill,更快、更稳

相当于花十分钟教了一个聪明的徒弟,以后这活儿就是他的了。

4. 可恢复的内存压缩

长任务容易因为上下文太长而失控。

TuriX 引入了可恢复的内存压缩机制,把历史信息压缩存储,需要时再展开。这样既能处理长时间任务,又不会因为上下文爆炸而翻车。

05 实际能干什么

浏览器操作

  • • 自动搜索 YouTube 视频并点赞
  • • 批量打开网页、填写表单
  • • 自动提交 GitHub Issue

日常应用

  • • 微信自动通过好友验证请求
  • • 邮件批量处理
  • • 文档类应用操作

系统设置

  • • Mac 系统偏好设置自动化
  • • 文件批量整理
  • • 跨应用数据搬运

集成到 Agent 框架

TuriX 不仅有自己的桌面应用,还能作为 Skill 接入各种 Agent 框架:

  • • OpenClaw — 已在 ClawHub 发布官方技能包
  • • Claude Code — 可直接调用
  • • Hermes Agent — 支持集成
  • • 其他支持 MCP 协议的框架

06 TuriX vs 竞品

TuriX 的优势

  • • 完全开源,架构灵活,可以当底层能力模块接入任意框架
  • • 可随意更换视觉大模型底座,上限高
  • • 对中文支持更友好

TuriX 的不足

  • • 操作时会抢鼠标(官方正在优化)

07 快速上手

方式 1:桌面应用(最简单)

访问官网下载对应系统的应用:

1
`turix.ai`

方式 2:源码运行

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
`# 1. 克隆仓库
git clone https://github.com/TurixAI/TuriX-CUA.git
cd TuriX-CUA

# 2. 创建 Python 3.12 环境
conda create -n turix_env python=3.12
conda activate turix_env

# 3. 安装依赖
pip install -r requirements.txt

# 4. 配置 API Key(config.json)
{
  "agent": {
    "model": "qwen/Qwen2.5-VL-72B",
    "api_key": "your_api_key",
    "use_plan": true,
    "use_skills": true
  }
}

# 5. 启动
python examples/main.py`

方式 3:接入 OpenClaw

1
2
3
4
5
6
7
8
`# 下载 skill 安装包,解压后放到 OpenClaw 技能目录
# macOS / Linux
mkdir -p ~/.openclaw/workspace/skills
cp -R turix-cua ~/.openclaw/workspace/skills/

# Windows PowerShell
mkdir "$HOME\.openclaw\workspace\skills"
Copy-Item -Path ".\turix-cua" -Destination "$env:USERPROFILE\.openclaw\workspace\skills" -Recurse -Force`

08 路线图

TuriX 的迭代节奏很快,来看看他们的规划:

时间

功能

状态

2025 Q3

终止与恢复

✅ 已完成

2025 Q3

Windows 支持

✅ 已完成

2025 Q4

下一代 AI 模型

✅ 已完成

2025 Q4

规划器 + 多智能体架构

✅ 已完成

2026 Q1

Ollama 支持

✅ 已完成

2026 Q1

Skills 机制

✅ 已完成

2026 Q1

OpenClaw 技能

✅ 已完成

2026 Q1

Linux 支持

✅ 已完成

2026 Q2

浏览器自动化(类 Chrome)

🔄 规划中

2026 Q2

长期记忆

🔄 规划中

2026 Q2

示范学习

🔄 规划中

09 项目信息

写在最后

让 Agent 操纵 APP 的终极方案,底层 API 调用无疑是最稳定、最高效的。

但面对国内互联网处处建护城河的现实,CUA(计算机视觉操作)在未来一段时间内,就是最具普适性的自动化方案

TuriX 的价值不只是”又一个 CUA 工具”——而是它把这套能力做成了标准化、可集成、可扩展的基础设施。

花十分钟教一个 AI 徒弟,以后这活儿就是他的了。


💬 本文评论区已开启,但暂无读者留言。

本文转载自微信公众号,如有侵权请联系删除。

  • 标题:
  • 作者: lxiol
  • 创建于 : 2026-04-27 20:19:07
  • 更新于 : 2026-04-29 20:21:28
  • 链接: https://blog.lxiol.cn/2026/04/27/让-AI-接管你的电脑这个-Agent-凭什么-23K-Stars-还在涨/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。