智源背景团队获投,人形机器人大模型迎新玩家 | AI资讯速递 - AINEWS
type
status
date
slug
summary
tags
category
icon
password
网址
人工智能(AI)的浪潮正以前所未有的速度席卷全球,其中,具备物理实体的具身智能,尤其是人形机器人,被视为AGI(通用人工智能)的终极载体之一。然而,如何让机器人拥有真正通用的“大脑”,能够理解复杂指令、适应多变环境并完成精细操作,一直是业界探索的核心难题。近日,一家名为「智在无界」(BeingBeyond)的初创公司凭借其在人形机器人通用大模型领域的创新思路,获得了联想之星领投,智谱Z基金、燕缘创投、彬复资本跟投的数千万元融资,为这个热门赛道再添一把火。这无疑是AI领域,特别是大模型和LLM(大语言模型)发展中的一则重要AI新闻。
群星闪耀:智源基因与资本加持的“智在无界”
「智在无界」成立于2025年1月(根据公开报道信息),其创始团队阵容堪称豪华。创始人卢宗青是北京大学计算机学院的长聘副教授,并曾担任北京智源人工智能研究院(简称“智源研究院”)多模态交互研究中心的负责人,在通用智能体领域有着深厚的学术积累。团队多位核心成员亦来自智源研究院,在强化学习、计算机视觉、机器人控制和多模态技术等关键领域拥有丰富的研发与落地经验。
正是这样一支兼具学术前沿视野和产业实践能力的团队,吸引了包括联想之星、智谱AI旗下Z基金等知名投资机构的目光。这不仅是对团队能力的认可,也反映了资本市场对人形机器人通用大模型赛道未来潜力的高度期待。作为重要的AI资讯,这类投资动向往往预示着技术突破和产业变革的加速。
破解瓶颈:从互联网视频到机器人通用能力的创新路径
当前,制约具身智能机器人性能提升的核心矛盾在于数据规模与泛化能力。一方面,机器人要实现高度拟人化的行动与决策,需要海量、多样化的数据进行训练,但真机数据的采集成本高昂、难度巨大。另一方面,即使拥有大量数据,如何让模型具备强大的泛化能力,在未知环境中灵活应对新任务、新物体,仍是巨大挑战。
针对这一痛点,「智在无界」提出了一条创新路径:其预训练数据主要来自互联网端的人类运动和手部操作视频。通过解析这些自然场景下的动作序列,构建机器人运动操作能力的预训练基础。这种以公开视频数据为驱动的技术路线,极大地突破了传统方案对机器人真机数据的强依赖,实现了从“人类行为示范”到“机器人动作生成”的跨模态迁移。这意味着,模型可以从海量的、现成的视频资源(如行走、舞蹈、工具使用等第一人称视角精细操作)中学习,为模型提供丰富多元的动作样本,从而提升其在不同环境下的适应性和泛化性。
技术揭秘:“三层大脑”与自学习框架如何赋能机器人
为了让人形机器人具备通用的操作和运动能力,「智在无界」构建了一套精密的通用大模型系统,可以看作机器人的“三层大脑”:
- 具身多模态大语言模型(Embodied Multimodal Large Language Model):这是机器人的“认知核心”。「智在无界」自主研发了Video Tokenizer技术,强调对时空环境的理解与推理能力,尤其是针对第一人称视角视频内容的解析。通过将连续视频流解构为兼具时间序列与空间语义的视觉token单元,使模型能精准捕捉动作的时序逻辑(如伸手、抬臂、抓取这一连贯过程),并基于物体方位、肢体相对位置等空间特征理解物理世界和人类行为。用户通过自然语言下达的指令(可视为一种高级“提示词 Prompt”),将在这里被理解和规划。
- 多模态姿态大模型(Multimodal Pose Large Model):负责将高级指令转化为具体的身体姿态和动作序列。它从互联网视频数据中学习各种动作在不同环境下的表现形式。
- 运动模型(Motion Model):最终将姿态指令转化为机器人可以执行的平滑、精确的物理运动。
更关键的是,为了让机器人具备持续进化的能力,「智在无界」提出了Retriever-Actor-Critic(RAC)自学习具身智能体框架。该框架通过对真实交互数据的RAG(检索增强生成)与强化学习的协同应用,不仅能提升模型的响应准确性与用户体验,更重要的是形成了“数据收集-模型优化-效果反馈”的闭环。这使得机器人具备了动态适应多变场景的能力,为其规模化落地提供了可行的技术路径,是实现真正人工智能的关键一步。
商业远景:迈向“零样本”泛化,加速具身智能落地
卢宗青指出,基于互联网视频预训练通用动作模型,再通过后期适配训练实现对不同机器人本体及场景的迁移,「智在无界」的技术路径可以有效避免因硬件迭代导致的数据浪费,从而根本性地解决真机数据稀缺与场景泛化的矛盾。这让人不禁联想到当前大模型如ChatGPT、Claude等在各自领域展现出的强大能力,而「智在无界」正试图将这种能力赋予物理实体。
投资方对此也给予了高度评价。联想之星合伙人高天垚表示,BeingBeyond团队的技术路线解决了训练数据来源有限的问题,其模块化构建的完整技术框架具备全栈技术能力,在解决具身大模型的任务与环境泛化性、跨本体等问题上具有强竞争力,有望逐步实现“零样本”泛化。
智谱Z基金合伙人王璞则强调,从构建业界首个百万规模的MotionLib数据集,到开发端到端的Being-M0动作生成模型,团队不仅验证了“大数据+大模型”在具身智能中的规模效应,更实现了跨平台动作迁移的技术闭环。这项将文本指令转化为机器人精细动作的创新,为机器人走进千家万户铺平了道路。
目前,「智在无界」正积极同头部机器人厂商推进场景验证合作,以期加速具身智能在更多领域的应用落地,这对于探索AI变现路径具有重要意义。
结论:人形机器人大模型的星辰大海
“智在无界”的出现及其获得资本市场的认可,再次印证了人形机器人与大模型结合是AI发展的重要趋势。通过创新的数据获取方式和先进的模型架构,该公司正致力于攻克具身智能的核心难题,推动机器人从实验室真正走向日常生活,向着AGI的远大目标迈进。
对于关注AI发展的朋友们,人形机器人领域的每一次突破都值得期待。想要获取更多前沿的AI资讯、AI新闻,了解LLM、大模型、AGI的最新动态,以及像openai、chatGPT、claude等知名模型的技术进展和应用场景,欢迎访问AI门户网站 https://aigc.bar 获取更多深度内容和行业洞察。通用机器人的时代,或许比我们想象的更近。
Loading...