开云体育官方网站 浙江大学出手,打造AI手机助手全套器用链——ClawGUI让机器东谈主实在学会“用手机”

这项由浙江大学多个团队王人集开展的征询,以预印骨子式发布于2026年4月,论文编号为arXiv:2604.11784,有兴致真切了解工夫细节的读者可以通过该编号检索完满论文。
手机屏幕是当代东谈主生存的中枢战场。掀开微信、刷视频、订外卖、成立闹钟——这些往常操作对东谈主来说不费吹灰之力,但对AI来说却是一座难以翻越的峻岭。不像让AI写著述或回答问题,操控手机需要AI实在"看懂"屏幕,然后用手指去点击、滑动、输入笔墨,就像一个真实的东谈主类用户在使用手机一样。这类或者像东谈主一样操作图形界面的AI,被征询者称为"GUI智能体"(Graphical User Interface Agent)。
畴昔两年里,这个规模的征询像浩如烟海般显现,但有一个让统统征询者头疼的问题遥远莫得治理:大众各自作念征询、各自跑实验、各自敷陈数字,却莫得一套挽回的器用链把教练、评测和实践部署串在通盘。就好像厨师们各自研发菜谱,但厨房开垦欠亨用、食材计量不挽回、菜端上桌的面貌也各不疏通——最终没东谈主能相比谁作念的更好,更没法让庸碌门客实在吃到这谈菜。
浙江大学的征询团队正是为了治理这个问题,开发了ClawGUI这套完满的器用链。它的名字暗含"爪子"之意,符号着AI用爪子(手指)去持取和操控手机屏幕。这套框架把教练AI、测试AI、把AI部署到真实手机上这三件事,统统装进了消逝个器用箱,让征询者和庸碌用户都能从中受益。
一、为什么给AI教化"用手机"这样难?
在负责先容ClawGUI之前,需要先搞明晰这个问题:为什么教练一个会操作手机界面的AI,比遐想中艰巨得多?
回到厨房的比方。假定你要教练一个厨师学徒,需要三件事同期到位:一是要有一个真实的厨房让他练手(这是"教练环境"的问题);二是要有一套公道的评分模范判断他作念得好不好(这是"评测"的问题);三是要有概念让他毕业后竟然去餐厅使命(这是"部署"的问题)。现存的GUI智能体征询,这三件事齐全卡壳了。
在教练环境方面,面前如实有一些征询团队使用强化学习(Reinforcement Learning,简便交融便是让AI通过反复试错来学习,见效了给奖励,失败了扣分)来教练GUI智能体,效果也可以。但这些团队都莫得公开我方的教练系统,外界无法复现。更严重的是,统统教练都在虚构手机模拟器里进行,莫得东谈主尝试在真什物理手机上教练。而且手机模拟器本人相配脆弱,跑着跑着就会崩溃,教练过程极不踏实。
在评测方面,问题雷同辣手。各个论文敷陈的数字根蒂没法彼此相比——消逝个AI模子,用不同的发问面貌、不同的图片分辨率、不同的坐标筹谋面貌,得出的测试分数可以差好几个百分点。一篇论文说我方的AI在某个测试集上提高了2%,但谁也不知谈这2%是竟然朝上,照旧换了一种更隐私的发问面貌带来的。
在部署方面,就更惨了。实验室里教练好的AI险些从来不会实在出面前庸碌用户手中。征询者要么把代码放在GitHub上等别东谈主我方折腾,要么只救助某一款安卓手机,换个系统就不成了,更谈不上什么个性化顾虑或者跨平台使用。
ClawGUI便是为了同期堵上这三个罅隙而生的。
二、教练场:给AI搭建一个踏实的手机训练室
ClawGUI的第一个中枢模块叫作念ClawGUI-RL,专门负责教练AI。RL是"Reinforcement Learning"的缩写,也便是强化学习的酷好。
这套教练系统最中枢的遐想是一个"环境照应器",可以交融为一个能同期照应几十个虚构手机的退换员。教练的时候,这些虚构手机同期运行,每台手机都在践诺不同的任务,AI则在这些任务中反复训练。每当一台虚构手机崩溃或者卡死,退换员就会自动把它替换成一台新的备用机器,确保教练不会中断。这个遐想治理了之前虚构环境容易崩溃导致教练失败的老浩劫问题。
更珍惜的是,ClawGUI-RL是第一个公开救助在真什物理手机上教练的系统。在真实手机上教练和在模拟器里教练有本质的区别。模拟器里,征询者可以径直读取手机系统的底层数据来判断任务是否完成——比如径直搜检数据库里有莫得新增一条接洽东谈主记载。但真实手机莫得这个权限,没法径直读取系统数据。ClawGUI-RL的治理有缠绵是让另一个宏大的多模态AI来当"裁判",通过不雅察任务践诺完成后的手机截图,判断AI有莫得把事情作念对。这个裁判AI就像一个监考憨厚,看着屏幕上的最终收尾来打分,不需要翻看学生的磨练过程。
在奖励遐想上,ClawGUI-RL收受了一种相配机灵的双层奖励机制。基础层是一个简便狡滑的二元判断:任务完成给1分,失败给0分。但问题在于,操控手机通常需要十几步甚而几十步操作,只在终末告诉AI"你失败了",AI根蒂不知谈是哪一步走错了,就像磨练只给最终收获而不告诉你错在哪谈题。
为了治理这个问题,ClawGUI-RL引入了"过程奖励模子"(Process Reward Model,PRM)。这个模子会在AI每践诺一步操作之后,坐窝评判这步操作有莫得朝着主义方上前进。比如AI要发一条微信音问,先掀开微信应用——好,这步标的对了;然后找到主义接洽东谈主——好,不绝前进;接着点击输入框——对;终末输入内容并发送——完成!统统过程中每一步都有即时响应,而不是比及终末才知谈对错。这样AI就能学到哪些中间操作是有价值的,哪些是在糟践时辰。
在具体的教练算法聘请上,ClawGUI-RL同期救助两种方法:GRPO和GiGPO。可以把GRPO交融为"按轨迹打分"——整段操作完成后,把这段操作举座与其他尝试相比,评出高下。这对短任务很管用,但关于需要几十步操作的复杂任务,就显得太爽脆了。GiGPO则更紧密,它会把不同尝试中遭逢疏通中间气象的操作门径归组,别离相比每个节点上各个AI的聘请孰优孰劣,从而给出更细粒度的评分。这就好比解说不单看领路员最终跑了几许分钟,还会分析每一个弯谈上的跑姿是否模范。
三、科场:让AI测试收获实在可相比
教练好了AI之后,怎样知谈它究竟有多强?这就需要ClawGUI的第二个中枢模块——ClawGUI-Eval,一个模范化评测活水线。
这个模块的中枢扉念是:把统统评测过程拆成三个严格分离的阶段,别离是"推理""评判"和"筹谋主义"。就像活水线上的三个工位各司其职,任何一个工位出了问题都可以单独返工,而不需要把整条活水线全部重跑一遍。
第一个工位"推理"负责让AI模子看题作答,生成原始展望收尾。这个工位救助两种接入面貌:一种是在土产货GPU上径直运行模子,另一种是通过API费力调用模子。多块GPU可以并运用命,而且要是半途断了,可以从断点续跑,不需要重新开动。第二个工位"评判"负责把AI的谜底和模范谜底对比,判断每谈题对分歧。针对不同类型的题目,有专门的评判逻辑。比如模范的GUI定位题,判断AI点击的坐标是否落在主义元素的范围框内;针对多步操作题,则有专门的多门径评判器。第三个工位"筹谋主义"把统统判断收尾汇总成最终分数,况兼按照平台类型、界面元素类别、任务类型等不同维度细分,让征询者能看明晰AI到底在哪些所在强、在哪些所在弱。
ClawGUI-Eval笼罩了6个主流评测基准,包括ScreenSpot-Pro(专注于高分辨率桌面界面的定位测试)、ScreenSpot-V2、UI-Vision(桌面GUI的视觉感知与交互测试)、MMBench-GUI(多平台脉络化评估)、OSWorld-G(操作系统级别的界面定位)以及AndroidControl(安卓端的操四肢止)。同期救助杰出11个主流AI模子,涵盖Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G?、UI-Venus、GUI-Owl、StepGUI、Gemini以及Seed 1.8等。
为了考证这套模范化活水线的可靠性,征询团队把我方再行跑出来的收获与各个模子官方公布的数字逐个双比,收尾达到了95.8%的复现率——也便是说,在有官方数字可以对比的48组数据中,46组的瑕玷在2%以内或杰出官方数字。这个收获尽头漂亮,基本诠释了ClawGUI-Eval的模范化作念到位了。
仅有两组复现失败,偶合发生在那些莫得公开评测建立细节的模子上。这个发现本人就很有劝服力:GUI评测的可肖似性问题,开云体育官方网站根子在于建立细节莫得透明化,而不是评测这件事本人就无法模范化。
关于无法径直调用的闭源生意模子,征询团队还遐想了一种叫"缩放范式"(Zoom paradigm)的两阶段处理方法。简便说便是先把高分辨率大图切成多个小块别离送给模子看,再从各个小块的定位收尾复原到整张图上的坐标。用Gemini模子测试时切成25%大小的瓦片,用Seed模子时切成50%的瓦片,这样处理后见效复现了官方数字,而且完全不需要战斗模子里面结构。
四、外出上岗:把教练好的AI实在装进手机
前两个模块治理了教练和评测的问题,第三个模块ClawGUI-Agent要治理终末一公里的问题:把AI实在送到用户手中,在真实手机上为真实用户工作。
这个模块救助安卓、鸿蒙和iOS三大手机操作系统,同期接入了包括飞书、钉钉、Telegram、Discord、Slack、QQ在内的杰出12个聊天平台。用户只需要在我方往常用的聊天软件里给AI发一条音问,AI就能去操控手机完成任务,践诺完后把收尾回应给用户。这就好像你有一个费力文告,你在微信里说"帮我订一张未来往上海的高铁票",文告就用你的手机把这件事办完,然后告诉你票也曾订好了。
ClawGUI-Agent还救助两种为止形式。"费力为止形式"是你用另一台开垦通过聊天软件来为止主义手机,合适需要费力照应手机的场景。"土产货为止形式"则是径直在手机本人上运行的聊天软件里发领导,AI径直经受这台手机操作,不需要特地的硬件或云霄中继。
在操控手机的具体面貌上,ClawGUI-Agent选择了一种"CLI+GUI搀和为止"战略。CLI是高歌行界面(Command Line Interface)的缩写,可以交融为通过规范代码径直给手机系统下高歌,遵守极高,一条领导就能完成庸碌用户需要点击好几个页面才能完成的操作。GUI为止则是像东谈主一样去看屏幕、点按钮、滑屏幕,笼罩范围更广,任何应用都能为止,但需要的门径更多。这两种面貌各有优劣,ClawGUI-Agent的战略是优先用CLI处理有规范接口的任务,遭逢莫得规范接口的应用再切换到GUI为止。这种搀和战略既保留了CLI的高效,又确保了GUI的广笼罩。
ClawGUI-Agent还有一个个性化顾虑系统,是统统框架中尽头有温度的一个遐想。AI在践诺任务的过程中,会自动从互动中索求结构化信息,比如你常用的应用、你的接洽东谈主关系、你的使用习气和偏好,然后把这些信息以向量镶嵌的体式存储起来。下次你再发领导的时候,系统会检索出与面前任务最干系的历史顾虑,注入到AI的高下文里,让AI能认出你说的"我妈"是指哪个接洽东谈主,知谈你每天早上9点开会,知谈你偏好用某个外卖平台。肖似的顾虑条件会被合并而不是积存,确保顾虑库保持精简和干系性。
更真谛的是,ClawGUI-Agent把前边先容的评测模块ClawGUI-Eval也打包成了一个可以径直调用的"妙技"。征询者不需要写任何代码,只须对着聊天窗口说一句"帮我评测Qwen3-VL在ScreenSpot-Pro上的进展",系统就会自动完成环境查验、启动多GPU并行推理、运行评判器、筹谋主义、生成敷陈这一整套过程,终末把结构化的收获单发给你,还附上与官方数字的对比。
五、教练收尾:用2B参数的小模子超越72B的大模子
ClawGUI-2B是征询团队在这套框架里端到端教练出来的一个收尾模子,基于MAI-UI-2B(一个由行业团队发布的2B参数基础模子)不绝用强化学习教练而来。教练使用了64个并行虚构手机环境,运行在8块A6000 GPU上,收受GiGPO算法,批次大小为8,教练了3个轮次。步级奖励的评判使命交给Qwen3.5-72B这个大模子来完成。
评测在MobileWorld基准上进行,这是一个在线交互式测试集,专门用来斟酌GUI智能体完成真实出动端任务的端到端技艺。征询团队重心暖和其中的"GUI-Only"分组,共117个任务,要求AI纯靠视觉操控完成真实手机上的任务,不借助任何规范接口。见遵守的界说很径直:AI在步调步数(最多50步)内完成任务就算见效。
ClawGUI-2B在这个测试上获取了17.1%的见遵守。这个数字乍看不高,但对比其他选手就很能说明问题了。同等参数规模的MAI-UI-2B唯独11.1%,ClawGUI-2B比它高出整整6个百分点,而且两者的起始是消逝个基础模子,差距完全来自ClawGUI-RL这套教练基础设施的孝敬。
更引东谈主瞩目的对比来自那些体量大得多的模子。Qwen3-VL-32B是ClawGUI-2B的16倍大,收获却唯独11.9%。UI-Venus-72B是ClawGUI-2B的36倍大,收获也唯独16.4%,还比ClawGUI-2B低了0.7个百分点。换句话说,一个经过良好教练的2B小模子,在真实手机操控任务上能击败36倍于自体魄积的模子,这件事本人就很专门想——说明在这个规模,教练面貌的质料比模子的原始参数目更紧要。
固然,顶部还有一个完全不同的竞争梯队:把超强的生意大模子(如Gemini-3-Pro、GPT-5、Claude-4.5-Sonnet)和专门的界面定位小模子组合在通盘的"框架型有缠绵",收获最高能到55.6%。但这类有缠绵依赖闭源的生意模子,无法我方端到端教练,更适相助为参考对象而不是竞争敌手。
在GRPO和GiGPO的对比测试中,两者使用完全疏通的其他成立,惟一远离在于奖励的粒度。GRPO只给每条轨迹举座打分,收获是14.5%;换成GiGPO之后,收获晋升到17.1%,相对晋升幅度达到17.9%。这个对比径直阐述了一件事:在需要几十步操作的复杂任务中,每一步的细粒度信用分派关于AI的学习质料有实质性影响,不是细枝小节。
说到底,ClawGUI作念的事情看起来像是在修缮器用箱,而不是发明一件一鸣惊人的新兵器。但正是这种扎塌实实的基础设施建筑,通常才是激动一个规模实在老练的要害。GUI智能体这个规模也曾有许多机灵的想法和模子,缺的恰正是一个大众都能用、都能对比、都能把收尾实在送到用户手里的挽回平台。
这关于庸碌用户意味着什么?最近几年,AI助手的技艺也曾让许多东谈主感到颤抖,但"能和你聊天"和"能替你操作手机"之间还有很长的距离。ClawGUI这套框架的价值,在于它把这条路上最难走的几段工程问题都铺平了,让后续的征询者可以踩着这块基石不绝往前走。按照这个标的发展下去,在不远的将来,一个实在能在手机上替你处理往常杂务、记取你的习气、跨多个平台无缝使命的AI助手,变得愈加可期。
要是你对这套框架的工夫细节感兴致,可以通过论文编号arXiv:2604.11784找到完满论文,统统代码也已开源在GitHub上的zju-real/ClawGUI仓库。不妨想考一个问题:当AI实在能像东谈主一样熟练操控手机之后,你最但愿它帮你处理哪件往常杂事?
---
Q&A
Q1:ClawGUI和庸碌的AI手机助手有什么区别?
A:庸碌AI手机助手(比如Siri或小爱同学)主要靠调用系统级API完成任务,笼罩范围有限。ClawGUI教练出来的GUI智能体是径直"看屏幕、点按钮"来操控手机,和东谈主类用手机的面貌一样,表面上可以操作任何应用,不需要应用灵通专门的接口。ClawGUI照旧一套完满的征询器用链,同期治理了教练、评测和部署三个要害的问题。
Q2:ClawGUI-2B收获唯独17%,是不是进展很差?
A:这个数字需要放到具体布景里交融。MobileWorld GUI-Only测试的117个任务要求AI纯靠视觉操控完成真实手机操作,任务难度尽头高。17.1%的收获在同等规模的开源端到端模子里处于率先位置,比参数目大得多的Qwen3-VL-32B(11.9%)和UI-Venus-72B(16.4%)都要高。顶部收获杰出50%的有缠绵依赖闭源生意大模子,不在消逝个可相比的类别里。
Q3:GiGPO和GRPO的区别对庸碌用户有影响吗?
A:径直影响不大开云体育官方网站,但蜿蜒影响显明。GiGPO通过给每一步操作单独打分,让AI学得更精确,最终体面前职务完成率上——雷同的教练资源和基础模子,用GiGPO教练比用GRPO教练见遵守高了约17.9%(从14.5%到17.1%)。关于庸碌用户来说,这意味着AI更少在半途走弯路,完成任务的概率更高、速率更快。
IM体育官方网站首页
备案号: