字节Game-TARS发布:5000亿Token训练,AI像人一样玩转电脑 | AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址
人工智能(AI)领域的终极目标之一是创造能够像人类一样与数字世界无缝交互的通用智能体(AGI)。最近,字节跳动Seed团队发布的一项研究成果——通用游戏智能体Game-TARS,让我们看到了这一未来图景的清晰曙光。它不再依赖于为特定程序编写的API接口,而是真正学会了使用鼠标和键盘,像一个真实玩家那样操作电脑。
这项研究不仅在《我的世界》、《星露谷》等复杂游戏中展现了惊人的能力,甚至在从未见过的网页游戏中实现了零样本迁移,其表现全面超越了GPT-4、Gemini等业界顶尖的大模型。这不仅是游戏AI的革命,更是通向通用人工智能道路上的一座重要里程碑。想获取更多前沿的AI资讯,可以访问一站式AI门户网站 https://aigc.bar 获取最新动态。

核心突破:回归“人类原生交互”

传统AI智能体在执行任务时,通常依赖于高层级的API调用或为特定环境定制的动作指令。例如,它们可以通过Search(query)函数直接完成搜索,而无需模拟打开浏览器、定位搜索框、输入文字并点击按钮的完整过程。这种方式虽然高效,但严重缺乏通用性——一旦更换操作系统或应用程序,整个智能体就可能完全失效。
Game-TARS的革命性在于它彻底抛弃了这种“捷径”,回归到最基础、最通用的交互方式:人类原生交互(Human-Native Interaction)。它只学习三种基本动作: * mouseMove(dx, dy):像人一样移动鼠标。 * mouseClick(buttons):像人一样点击鼠标左键、右键或中键。 * keyPress(xkeys):像人一样按下键盘上的单个或组合按键。
通过将动作空间统一到键盘和鼠标上,Game-TARS的指令集与任何特定的应用程序或操作系统完全解耦。这意味着,理论上只要是人类能用键鼠操作的软件,它就能学习操作。这种设计极大地提升了模型的可扩展性和泛化能力,使其能够从海量的、不同来源的人类操作数据中学习,而无需为每个应用单独适配。

训练揭秘:5000亿Token与稀疏思维

要让AI学会像人一样思考和操作,背后需要庞大的数据和精巧的训练策略。Game-TARS的成功,正得益于其创新的训练框架,该框架将视觉感知、策略推理、动作执行和长期记忆无缝集成到一个统一的视觉语言模型(VLM)中。
第一阶段:大规模持续预训练
在预训练阶段,研究团队使用了超过2万小时、约合5000亿Token的超大规模多模态游戏数据。为了让模型学到人类的思维模式,他们引入了两大关键技术:
  1. 稀疏推理(Sparse Thinking):人类在玩游戏时并不会每时每刻都在进行深度思考,而是在关键决策点进行推理。Game-TARS模仿了这一点,只在需要做出重要选择时才激活其“思考”模块,而在执行连续性动作时则保持“直觉”操作。这种“边做边想”的模式,通过采集标注者在游戏时实时口述的思维过程(Think-Aloud)来实现,生成了高质量的推理-行动序列。
  1. 衰减持续损失(Decaying Continual Loss):为了防止模型陷入不断重复某个简单动作的“行为惯性”(例如一直按住前进键),Game-TARS引入了一种指数衰减权重机制。它会降低连续重复动作在训练中的权重,迫使模型更多地关注那些信息量更大、更能体现策略转变的关键动作。
第二阶段:高质量后训练
经过大规模预训练后,模型进入后训练阶段,旨在强化其三大核心能力:
  • 指令遵循:通过随机更改键位绑定(如用‘X’代替‘W’表示前进),强迫模型必须理解系统提示的文本含义,而不是死记硬背操作模式。
  • 稀疏思维能力:利用拒绝微调等技术,让模型学会识别哪些是关键决策点,从而更高效地分配其“思考”资源。
  • 长期记忆:引入双层记忆机制。短期记忆保存最近的视觉画面,而长期记忆则只存储经过提炼的稀疏思维文本,从而在不丢失关键信息的情况下,高效地进行长期任务规划。
更重要的是,后训练阶段还引入了编码、GUI自动化等跨领域数据,旨在将Game-TARS从一个顶级游戏玩家,培养成一个能够胜任更多任务的通用计算机用户。

性能实测:跨游戏吊打顶尖大模型

实践是检验真理的唯一标准。在多项基准测试中,Game-TARS展现了其卓越的性能。
在《我的世界》这款极具代表性的开放世界游戏中,经过大规模通用数据训练的Game-TARS,其表现比之前最先进的专家模型提升了近2倍。这充分证明了其统一动作空间在可扩展性上的巨大优势。
更令人印象深刻的是,在FPS游戏(如Vizdoom)、3D模拟器(如Miniworld)以及各种在线网页游戏中,Game-TARS的迷你版本已经能够稳定地超越包括GPT-4、Gemini Pro和Claude 3 Sonnet在内的多个业界领先的LLM。这标志着一种新的、更具泛化能力的AI范式正在崛起,最新的AI新闻也印证了这一点。

Game-TARS的深远影响:从游戏玩家到通用计算机助手

Game-TARS的意义远不止于创造了一个更强大的游戏AI。它所验证的“人类原生交互”路径,为构建能够操作任何图形用户界面(GUI)的通用智能体铺平了道路。
想象一下,未来的AI助手不再需要开发者为其编写复杂的API接口。你可以直接告诉它:“帮我预订一张明天去上海的机票”,它就能像一个熟练的人类用户一样,自己打开旅行App,浏览航班,填写信息,并完成支付。从处理复杂的电子表格,到管理你的日常邮件,再到进行科学研究的数据处理,所有基于键鼠操作的任务,都有可能被这类通用智能体自动化。

结论

字节跳动发布的Game-TARS,通过回归最基础的键盘和鼠标操作,并结合海量数据和创新的训练方法,成功打造了一个具备高度泛化能力的通用智能体。它不仅在游戏领域取得了SOTA(State-of-the-Art)的成就,更重要的是,它为实现通用人工智能(AGI)这一宏伟目标,提供了一条清晰、可扩展且充满潜力的技术路径。这无疑是人工智能领域近期最激动人心的进展之一,预示着一个由AI深度赋能的全新数字交互时代即将来临。
Loading...

没有找到文章