极佳视界双金字塔：撑起物理AGI的Scaling Law

type

status

date

slug

summary

探寻物理AGI的Scaling Law：极佳视界「双金字塔」体系的深度解读

近年来，具身智能（Embodied Intelligence）领域的热度持续攀升，其中「世界模型」与「VLA/动作模型」是两大核心讨论方向。前者如 NVIDIA Cosmos、Google Genie，试图通过生成式世界模型突破数据供给的瓶颈；后者则以 Physical Intelligence 的 π 系列为代表，依赖大规模真实机器人数据追求通用动作能力。然而，当我们将目光投向「物理AGI」（Physical Artificial General Intelligence）这一终极目标时，一个根本性的问题浮现：什么样的算法与数据体系，才能真正驱动具身智能实现可预测的Scaling Law？

在2024年5月20日，极佳视界（GigaAI）在武汉光谷发布了其对这一问题的系统性解答——一套名为「双金字塔」的物理AGI体系。这场发布会不仅揭示了其在具身智能领域的深厚技术积累，更勾勒出了通往通用物理智能的清晰路径。本文将深入解读这一体系，解析数据与算法如何在这座「双金字塔」中协同构建，并探讨其对具身智能Scaling Law的意义。

Scaling Law的挑战：数据与算法的双重瓶颈

极佳视界合伙人、研发副总裁叶云在发布会上明确指出了当前具身智能在实现Scaling Law时面临的两大核心挑战：

1. 数据侧瓶颈： * 真机数据： 精度最高，但成本高昂，规模受限。 * 互联网视频： 规模庞大，但缺乏有效的动作监督信号。 * 仿真数据： 可无限生成，但难以跨越“Sim-to-Real”（仿真到真实）的鸿沟，真实性不足。任何单一数据来源都无法同时满足Scaling Law所要求的大规模、高信息密度和真实性。

2. 算法侧瓶颈： * 现有范式局限： 当前以语言为主导的VLA（Vision-Language-Action）范式，将视觉、动作“token化”后输入语言模型，在编码3D信息、物理因果关系和连续动作方面存在天然劣势。即使数据量堆积，现有模型架构也未必能高效消化。

这两个瓶颈相互制约，使得具身智能的规模化发展和能力的涌现（Emergence）变得异常困难。

极佳视界「双金字塔」体系：系统性解决方案

为了突破上述瓶颈，极佳视界提出了「双金字塔」体系，将数据和算法分别构建为独立的、但又紧密耦合的层次化结构。

数据金字塔：五层结构与全栈工程化

数据金字塔从底层到顶层依次为：互联网视频数据、真人数据、世界模型模拟器、仿真合成数据、真机数据。这一分层逻辑覆盖了当前具身智能数据采集的主要来源。

核心亮点在于其工程化落地：

真机数据： 通过家庭版轮臂机器人「拾光S1」及低成本数采硬件「Maker M01」采集。

仿真与世界模型数据： 由自研具身世界模型平台「GigaWorld-0」系统化生成。

真人数据： 利用低成本手持数采硬件「U-01」和Ego数采硬件「E-01」进行大规模采集。

互联网视频数据： 复用YouTube、Panda-70M等公开数据集。

特别值得关注的是，极佳视界推出的「低成本、非本体绑定」的数据采集硬件（如U-01, E-01），这借鉴了学术界UMI和EgoMimic的研究思路，被认为是突破真机数据瓶颈的可行方向。而将其与自研机器人本体和世界模型平台整合为一套全栈采集体系，在国内具身智能公司中具有领先地位。

算法金字塔：三层架构与多领域领先

算法金字塔从底层到顶层分为：世界模拟、动作对齐、经验强化。

世界模拟层： 代表模型是GigaWorld-1，在权威评测WorldArena上以62.34分位列全球第一，是首个突破60分的具身世界模型。

动作对齐层： 包括GigaBrain-0系列（VLA路线的具身基础模型），在RoboChallenge评测中以51.67%任务成功率排名全球第一，领先π0.5近10个百分点；以及GigaWorld-Policy（世界动作模型），在RoboCasa365评测中击败NVIDIA GR00T N1.5与π0.5，成为首个登顶的世界动作模型。

经验强化层： GigaBrain-0.5M*，通过“世界模型+强化学习”实现基模的自我进化。

极佳视界在世界模型、模仿学习（真机操作）和强化学习（家庭场景泛化）三个核心方向上均取得全球权威评测第一，并打通了三者间的数据流转，这有力证明了「双金字塔」体系深厚的技术支撑。

验证Scaling Law：真实家庭场景落地

技术体系的构建最终需要场景来验证。极佳视界将验证Scaling Law的“试金石”选在了真实家庭场景。

「拾光SeeLight」品牌与S1机器人

发布会上，极佳视界推出了面向家庭场景的全新子品牌「拾光SeeLight」，并由联合创始人、首席科学家朱政博士担任品牌CEO。该品牌定位为“国内首个家庭通用机器人品牌”，旨在将物理AGI带入日常生活。

首款产品「拾光S1」被定义为“全球首个进入真实家庭场景的通用人形机器人”。它采用家庭版轮臂构型，搭载极佳视界自研的具身基础模型，具备从感知、理解到行动的完整闭环能力。选择家庭这一高度开放、复杂且长尾的场景，正是对其“通用性”的严苛考验，也体现了“先难后易”的技术演进思路。

百台部署：可验证的Scaling数据闭环

具身智能赛道面临的最大挑战之一是“演示与实际使用之间的鸿沟”。极佳视界的回应是首个规模化的家庭机器人部署订单。

公司宣布「拾光S1」已获得真实家庭场景的百台订单，并将率先部署于武汉光谷之寓社区，于第三季度（Q3）开启规模化运营。这意味着，真实家庭的长期使用数据将开始积累，这对于物理智能领域的Scaling Law而言，是至关重要的“第一笔可被验证的订单”。如果这一数据闭环跑通，极佳视界在数据侧的护城河将随时间快速加深。

S2机器人与12个月路线图：剑指物理AGI的“GPT-3时刻”

发布会还预告了第二代产品「拾光S2」，预计第三季度发布。S2在底盘体积、电池续航（支持热换电）、操作范围等方面进行了系统性重构，旨在显著提升机器人在真实家庭环境中的“可用性”和连续工作能力，直接对应了机器人本体侧的关键瓶颈。

更具前瞻性的是，极佳视界首次公布了其物理AGI基础模型的12个月路线图——GigaBrain-1、GigaBrain-2、GigaBrain-3。其中，GigaBrain-3目标训练数据量将达到1000万小时视频数据+100万小时世界-动作数据，并剑指物理AGI的「GPT-3时刻」。

GPT-3在数字AGI历史上标志着“Scaling Law显现涌现能力”的临界点。极佳视界认为，物理AGI的「GPT-3时刻」同样是数据规模和算法范式达到某个临界阈值后，物理智能体爆发出真正通用性的时刻。这一明确的技术节点和时间表，是极佳视界此次发布会最显著的特点，它将“物理AGI何时到来”这一模糊命题，转化为“需要什么样的体系”+“什么时候到达”的具体技术问题，并提供了可被检验的假设。

总结与展望

极佳视界发布的「双金字塔」体系，不仅是其过去三年技术积累的集中展现，更是对物理AGI Scaling Law挑战的系统性回应。通过构建分层级、工程化的数据采集体系和多维度领先的算法架构，极佳视界正试图打通具身智能发展的关键瓶颈。

未来，有三件事值得持续追踪： 1. 「双金字塔」体系能否真正跑通Scaling Law：GigaBrain-1与GigaBrain-3的发布将是关键验证。 2. 百台家庭部署能否产生有效的数据闭环：真实家庭的长期使用数据是宝贵资产。 3. 「GPT-3时刻」能否在12个月内到来：这是物理AGI赛道最具争议也最有价值的判断。

极佳视界以系统性的方法论和可验证的时间表，为物理AGI的未来描绘了一幅更为清晰的蓝图。我们期待在不久的将来，看到这一体系如何驱动具身智能迈向真正的通用性。