通义新SOTA智能体:像人一样操作手机电脑,横扫10大榜单
type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能(AI)飞速发展的今天,让AI像人类一样自如地操作手机和电脑,已成为通往通用人工智能(AGI)的关键赛道。然而,现有的大模型(LLM)智能体要么功能单一,无法应对复杂场景;要么能力泛泛,实际操作时错误百出。近日,通义实验室推出的Mobile-Agent-v3框架及其核心模型GUI-Owl,如同一股强风,彻底改变了这一局面。它不仅在10个主流GUI(图形用户界面)评测榜单上全部拿下开源SOTA(State-of-the-Art)的成绩,更展示了一条通往高能自主智能体的清晰路径。
这不仅仅是一次简单的技术迭代,更是一场关于AI如何学习、思考和行动的深刻变革。从自动在浏览器搜索股价并填入表格,到在社交平台搜索攻略并收藏,GUI-Owl展现了惊人的任务执行力。接下来,我们将深入剖析其背后的核心技术与创新理念。
核心突破:构建会“自我进化”的数据飞轮
高质量的训练数据是训练强大AI模型的基石,对于需要理解复杂界面的GUI智能体更是如此。通义实验室没有采用传统的人工标注模式,而是构建了一套名为“自我进化轨迹生产(Self-Evolving Trajectory Production)”的自动化数据闭环系统。
这个系统堪称一个不知疲倦的“数据工厂”和“私人教练”的结合体,其工作流程如下:
- 高质量任务生成:系统首先自动产出丰富多样的任务指令,覆盖各种真实应用场景。
- 模型执行与轨迹爬取:GUI-Owl模型在隔离的云端沙箱环境(覆盖Android、Windows、macOS等)中尝试执行这些任务,系统记录下它的每一步操作轨迹。
- 轨迹正确性判断:一个自动化的裁判模块会对这些轨迹进行打分和筛选,判断任务是否成功完成。
- 任务指南生成:对于模型难以完成的高难度任务,系统会提炼成功案例或人工经验,生成关键步骤提示,帮助模型在下一轮尝试中“抄作业”,提高成功率。
通过这个闭环,所有经过筛选和优化的的高质量轨迹都会被反哺给模型进行迭代训练。这形成了一个强大的“自我增强飞轮”,让GUI-Owl在持续的实践中不断学习和进化,变得越来越聪明。
能力基石:GUI知识与推理的双重修炼
一个优秀的智能体不仅要“看得懂”界面,更要“想得清”如何操作。GUI-Owl的强大之处在于其兼具了扎实的GUI基础知识和鲁棒的推理能力。
一、精准的界面元素定位:让AI“指哪打哪”
为了让模型精准理解界面上的每一个按钮、文本和图标,研究团队构建了海量的“接地”(Grounding)任务数据。他们通过整合开源数据集、利用无障碍信息(A11y Tree)合成数据,并针对PC端界面元素密集的特点,创新性地使用SAM模型进行区域分割和细粒度标注,最终让GUI-Owl具备了像素级的定位能力。无论是“点击那个红色的按钮”,还是“选中第三段第二行的‘提交’二字”,它都能准确响应。
二、复杂的任务规划:教会AI“先想后做”
面对“预订一张明天去北京的机票”这类跨应用、长周期的复杂任务,GUI-Owl被训练得像一个经验丰富的规划师。团队通过两种方式构建任务规划数据:
* 从历史轨迹中提炼经验:将成功的操作记录整理成结构化的“任务执行手册”。
* 从超大语言模型中蒸馏知识:利用Qwen3-235B这样更强大的LLM生成详细的执行计划。
这使得GUI-Owl在行动前能够深思熟虑,制定出清晰、合理的步骤,而不是盲目试错。
进阶之路:强化学习与独创TRPO算法
仅靠离线数据学习还不够,智能体必须在与环境的真实交互中才能“越练越强”。为此,团队引入了强化学习(RL),并开发了一套独创的轨迹感知相对策略优化(TRPO)算法。
GUI操作任务的一大挑战是奖励信号极其稀疏——只有当整个复杂任务最终完成时,模型才能得到一个“成功”的正向反馈。这就像在迷宫里走了很久,只有走出去了才知道哪条路是对的。
通义的TRPO算法巧妙地解决了这个问题:
* 它在任务结束后,将最终的奖励(成功或失败)稳定且均匀地分配给轨迹中的每一步操作,让模型知道每一步决策的价值。
* 更具创新性的是,它引入了一个成功轨迹回放池。当模型在探索中屡次失败时,系统会从池中取出一个历史成功案例来“鼓励”模型,确保训练过程中总有正向信号,极大地提升了学习效率和稳定性。
通过这套先进的RL框架,GUI-Owl在OSWorld动态环境基准测试中的成功率稳定提升了近8个百分点,展现了强大的自进化潜力。
团队协作:单模型驱动的多智能体框架Mobile-Agent-v3
当任务变得极其复杂时,单一的端到端模型往往会力不从心。此时,多智能体协作框架便显示出巨大优势。Mobile-Agent-v3框架的设计堪称精妙,它由四个不同角色的“特工”协同工作,而这四个角色均由同一个GUI-Owl模型扮演。
- 管理者(Manager Agent):负责全局规划,将用户的高阶指令拆解为有序的子目标。
- 执行者(Worker Agent):负责具体操作,根据当前界面状态选择并执行最合适的动作。
- 反思者(Reflector Agent):负责事后复盘,检查每一步操作的结果是否符合预期,并分析失败原因。
- 记录员(Notetaker Agent):负责沉淀记忆,在成功操作后提取关键信息(如验证码、订单号)存入长期记忆,供后续使用。
这个“拆解→执行→检查→记录→调整”的闭环工作流,让AI团队能够有计划地行动、有依据地修正、有记忆地推进,其协同工作的效率和准确性远超单个智能体。
总而言之,通义实验室的Mobile-Agent-v3和GUI-Owl模型,通过自我进化数据流、扎实的基础能力训练、创新的强化学习算法以及高效的多智能体协作框架,为自主操作智能体的发展树立了新的标杆。这不仅是人工智能领域的一项重大技术突破,也预示着一个AI能真正成为我们数字化生活得力助手的时代正加速到来。
想要了解更多前沿的AI资讯和深度解读,欢迎访问AI门户网站 https://www.aigc.bar,获取关于大模型和AGI的最新动态。
Loading...