极佳视界双金字塔:撑起物理AGI的Scaling Law

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

探寻物理AGI的Scaling Law:极佳视界「双金字塔」体系的深度解读

近年来,具身智能(Embodied Intelligence)领域的热度持续攀升,其中「世界模型」与「VLA/动作模型」是两大核心讨论方向。前者如 NVIDIA Cosmos、Google Genie,试图通过生成式世界模型突破数据供给的瓶颈;后者则以 Physical Intelligence 的 π 系列为代表,依赖大规模真实机器人数据追求通用动作能力。然而,当我们将目光投向「物理AGI」(Physical Artificial General Intelligence)这一终极目标时,一个根本性的问题浮现:什么样的算法与数据体系,才能真正驱动具身智能实现可预测的Scaling Law?
在2024年5月20日,极佳视界(GigaAI)在武汉光谷发布了其对这一问题的系统性解答——一套名为「双金字塔」的物理AGI体系。这场发布会不仅揭示了其在具身智能领域的深厚技术积累,更勾勒出了通往通用物理智能的清晰路径。本文将深入解读这一体系,解析数据与算法如何在这座「双金字塔」中协同构建,并探讨其对具身智能Scaling Law的意义。

Scaling Law的挑战:数据与算法的双重瓶颈

极佳视界合伙人、研发副总裁叶云在发布会上明确指出了当前具身智能在实现Scaling Law时面临的两大核心挑战:
1. 数据侧瓶颈: * 真机数据: 精度最高,但成本高昂,规模受限。 * 互联网视频: 规模庞大,但缺乏有效的动作监督信号。 * 仿真数据: 可无限生成,但难以跨越“Sim-to-Real”(仿真到真实)的鸿沟,真实性不足。 任何单一数据来源都无法同时满足Scaling Law所要求的大规模、高信息密度和真实性。
2. 算法侧瓶颈: * 现有范式局限: 当前以语言为主导的VLA(Vision-Language-Action)范式,将视觉、动作“token化”后输入语言模型,在编码3D信息、物理因果关系和连续动作方面存在天然劣势。即使数据量堆积,现有模型架构也未必能高效消化。
这两个瓶颈相互制约,使得具身智能的规模化发展和能力的涌现(Emergence)变得异常困难。

极佳视界「双金字塔」体系:系统性解决方案

为了突破上述瓶颈,极佳视界提出了「双金字塔」体系,将数据和算法分别构建为独立的、但又紧密耦合的层次化结构。

数据金字塔:五层结构与全栈工程化

数据金字塔从底层到顶层依次为:互联网视频数据、真人数据、世界模型模拟器、仿真合成数据、真机数据。这一分层逻辑覆盖了当前具身智能数据采集的主要来源。
核心亮点在于其工程化落地:
  • 真机数据: 通过家庭版轮臂机器人「拾光S1」及低成本数采硬件「Maker M01」采集。
  • 仿真与世界模型数据: 由自研具身世界模型平台「GigaWorld-0」系统化生成。
  • 真人数据: 利用低成本手持数采硬件「U-01」和Ego数采硬件「E-01」进行大规模采集。
  • 互联网视频数据: 复用YouTube、Panda-70M等公开数据集。
特别值得关注的是,极佳视界推出的「低成本、非本体绑定」的数据采集硬件(如U-01, E-01),这借鉴了学术界UMI和EgoMimic的研究思路,被认为是突破真机数据瓶颈的可行方向。而将其与自研机器人本体和世界模型平台整合为一套全栈采集体系,在国内具身智能公司中具有领先地位。

算法金字塔:三层架构与多领域领先

算法金字塔从底层到顶层分为:世界模拟、动作对齐、经验强化。
  • 世界模拟层: 代表模型是GigaWorld-1,在权威评测WorldArena上以62.34分位列全球第一,是首个突破60分的具身世界模型。
  • 动作对齐层: 包括GigaBrain-0系列(VLA路线的具身基础模型),在RoboChallenge评测中以51.67%任务成功率排名全球第一,领先π0.5近10个百分点;以及GigaWorld-Policy(世界动作模型),在RoboCasa365评测中击败NVIDIA GR00T N1.5与π0.5,成为首个登顶的世界动作模型。
  • 经验强化层: GigaBrain-0.5M*,通过“世界模型+强化学习”实现基模的自我进化。
极佳视界在世界模型、模仿学习(真机操作)和强化学习(家庭场景泛化)三个核心方向上均取得全球权威评测第一,并打通了三者间的数据流转,这有力证明了「双金字塔」体系深厚的技术支撑。

验证Scaling Law:真实家庭场景落地

技术体系的构建最终需要场景来验证。极佳视界将验证Scaling Law的“试金石”选在了真实家庭场景

「拾光SeeLight」品牌与S1机器人

发布会上,极佳视界推出了面向家庭场景的全新子品牌「拾光SeeLight」,并由联合创始人、首席科学家朱政博士担任品牌CEO。该品牌定位为“国内首个家庭通用机器人品牌”,旨在将物理AGI带入日常生活。
首款产品「拾光S1」被定义为“全球首个进入真实家庭场景的通用人形机器人”。它采用家庭版轮臂构型,搭载极佳视界自研的具身基础模型,具备从感知、理解到行动的完整闭环能力。选择家庭这一高度开放、复杂且长尾的场景,正是对其“通用性”的严苛考验,也体现了“先难后易”的技术演进思路。

百台部署:可验证的Scaling数据闭环

具身智能赛道面临的最大挑战之一是“演示与实际使用之间的鸿沟”。极佳视界的回应是首个规模化的家庭机器人部署订单
公司宣布「拾光S1」已获得真实家庭场景的百台订单,并将率先部署于武汉光谷之寓社区,于第三季度(Q3)开启规模化运营。这意味着,真实家庭的长期使用数据将开始积累,这对于物理智能领域的Scaling Law而言,是至关重要的“第一笔可被验证的订单”。如果这一数据闭环跑通,极佳视界在数据侧的护城河将随时间快速加深。

S2机器人与12个月路线图:剑指物理AGI的“GPT-3时刻”

发布会还预告了第二代产品「拾光S2」,预计第三季度发布。S2在底盘体积、电池续航(支持热换电)、操作范围等方面进行了系统性重构,旨在显著提升机器人在真实家庭环境中的“可用性”和连续工作能力,直接对应了机器人本体侧的关键瓶颈。
更具前瞻性的是,极佳视界首次公布了其物理AGI基础模型的12个月路线图——GigaBrain-1、GigaBrain-2、GigaBrain-3。其中,GigaBrain-3目标训练数据量将达到1000万小时视频数据+100万小时世界-动作数据,并剑指物理AGI的「GPT-3时刻」
GPT-3在数字AGI历史上标志着“Scaling Law显现涌现能力”的临界点。极佳视界认为,物理AGI的「GPT-3时刻」同样是数据规模和算法范式达到某个临界阈值后,物理智能体爆发出真正通用性的时刻。这一明确的技术节点和时间表,是极佳视界此次发布会最显著的特点,它将“物理AGI何时到来”这一模糊命题,转化为“需要什么样的体系”+“什么时候到达”的具体技术问题,并提供了可被检验的假设。

总结与展望

极佳视界发布的「双金字塔」体系,不仅是其过去三年技术积累的集中展现,更是对物理AGI Scaling Law挑战的系统性回应。通过构建分层级、工程化的数据采集体系和多维度领先的算法架构,极佳视界正试图打通具身智能发展的关键瓶颈。
未来,有三件事值得持续追踪: 1. 「双金字塔」体系能否真正跑通Scaling Law:GigaBrain-1与GigaBrain-3的发布将是关键验证。 2. 百台家庭部署能否产生有效的数据闭环:真实家庭的长期使用数据是宝贵资产。 3. 「GPT-3时刻」能否在12个月内到来:这是物理AGI赛道最具争议也最有价值的判断。
极佳视界以系统性的方法论和可验证的时间表,为物理AGI的未来描绘了一幅更为清晰的蓝图。我们期待在不久的将来,看到这一体系如何驱动具身智能迈向真正的通用性。
Loading...

没有找到文章