Khosla豪赌38亿游戏片段:General Intuition打造通往AGI的世界模型

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在人工智能的发展历程中,每一次范式转移都伴随着巨额的资本押注和技术突破。如果说 OpenAI 解决了机器的“思考”问题,那么现在的硅谷正在寻找能解决机器“行动”问题的下一个巨头。今年 10 月,一家名为 General Intuition 的初创公司完成了 1.34 亿美元的种子轮融资,领投方正是当年慧眼识珠挖掘 OpenAI 的传奇投资人 Vinod Khosla。这是他自 2019 年以来最大的一笔种子轮支票。
这不仅仅是一次简单的投资,更标志着 AI 领域正在从单纯的文本处理(Bits to Bits)向物理世界交互(Atoms to Atoms)迈进。General Intuition 凭借其独特的 38 亿个游戏高光片段数据,试图构建一个通用的世界模型,赋予机器像人类一样的直觉和物理常识。对于关注 AGI大模型 发展的读者来说,了解这一趋势至关重要,更多前沿 AI资讯 和深度分析,请访问 AINEWS官网

继 OpenAI 后的最大赌注:从认知逻辑到物理直觉

Vinod Khosla 对 General Intuition 的下注,其底层逻辑与当年投资 OpenAI 如出一辙:基于第一性原理的推演。目前的 LLM(大型语言模型)如 ChatGPT,已经极其出色地解决了人类的“认知与逻辑”问题,它们能推理、能写代码、能规划。然而,这只是智能的一半版图。
在物理世界中,人类的生存和交互往往依赖于“直觉”而非复杂的逻辑推理。比如接住飞来的球,或者在拥挤的房间里行走,这些不需要语言介入的本能反应,正是目前 AI 所缺失的。General Intuition 的目标正是填补这一空白。
该公司 CEO Pim de Witte 提出了清晰的战略路线图: 1. Bits to Bits:由 LLM 主导的文本生成阶段。 2. Atoms to Bits:机器人感知阶段,将现实转化为数字信号。 3. Atoms to Atoms:终极阶段,机器直接驱动物理世界的原子交互。
General Intuition 并不打算重新发明 LLM,而是希望成为“Atoms to Atoms”时代的智能标准。他们的愿景是在 2030 年驱动全球 80% 的原子级物理交互,这正是 Khosla 看中的宏大愿景。

核心护城河:38 亿个“人类高光时刻”的数据宝库

支撑 General Intuition 这一宏伟目标的,是其不可复制的数据资产。该公司从游戏高光时刻剪辑平台 Medal 分拆而来,拥有超过 38 亿个短视频片段。这些数据不仅仅是视频,更是人类行为的“情景记忆(Episodic Memory)”。
与 Twitch 或 YouTube 上冗长的直播录像不同,Medal 的机制类似于“回溯录制”。只有当玩家打出精彩操作或发生意外时,才会保存过去几分钟的片段。这意味着: * 高密度信息:剔除了 99% 的跑图等无效垃圾时间,只保留了人类的高光决策瞬间。 * 负样本价值:包含了车祸、失败等瞬间,教会 AI “什么会导致失败”,这对于训练 Reward Model 至关重要。 * 因果配对:最关键的是,General Intuition 拥有“屏幕反馈(果)”与“人类操作(因)”的完美配对数据。他们通过底层技术记录了玩家的按键意图(如“跳跃”、“开火”),而非简单的键盘日志,解决了隐私问题并实现了跨游戏的通用性。
据悉,OpenAI 曾意识到这批数据的稀缺性,开出 5 亿美元试图收购,但被 Pim 拒绝。这证明了在通往 AGI 的道路上,高质量的行动数据比单纯的文本数据更为珍贵。

技术突破:基于视觉的模仿学习与物体恒存性

General Intuition 展示的 Demo 震惊了业界。他们训练的 Agent 完全基于视觉(Vision-Based),不依赖任何游戏底层代码或 API 接口,却能像人类一样操作游戏。
  • 拟人化操作:传统的游戏脚本操作生硬机械,而 General Intuition 的 Agent 通过大规模模仿学习,学会了人类细腻的鼠标轨迹,甚至学会了人类的“坏习惯”(如无聊时切刀、看计分板)。这证明它理解了人类与环境交互的全貌。
  • 物体恒存性(Object Permanence):在演示中,即便敌人躲入烟雾或墙后,从视觉上消失,Agent 依然能根据之前的轨迹推测敌人的位置。这表明模型不仅仅是在做像素匹配,而是构建了 3D 空间的时空模型,理解了“物体看不见但依然存在”的物理规律。
  • 物理规律迁移:模型甚至能将现实视频中学到的物理法则(如爆炸会导致镜头震动)迁移到游戏画面生成中,展现了惊人的泛化能力。
此外,得益于算力硬件的红利,特别是 Diamond 论文证明了世界模型可以在消费级显卡上流畅运行,General Intuition 能够采用端侧推理策略,将计算任务下放到用户本地,大大降低了 AI 部署的成本。

互补的未来:LLM 指挥,世界模型执行

人工智能 的未来架构中,General Intuition 与 LLM 并非竞争关系,而是完美的互补。
Pim 认为,文本本质上是对三维世界的高维压缩,在这个过程中丢失了大量的时空细节(如摩擦力、光影、精确力度)。因此,LLM 适合做“指挥官(Orchestrator)”,负责高层的语义理解和任务拆解;而 General Intuition 的世界模型则是“执行者”,负责处理毫秒级的视觉输入和肌肉控制,还原被文本压缩掉的物理细节。
这种“大脑+小脑”的组合,或许才是通往通用人工智能的真正路径。随着 AI资讯 领域的不断更新,我们将看到更多像 General Intuition 这样的公司,利用独特的非文本数据,填补 AI 在物理世界交互中的最后一块拼图。

结论

General Intuition 的出现,标志着 AI 行业正在进入一个新的深水区。从 OpenAI 的语言智能到 General Intuition 的空间智能,我们正一步步逼近真正的 AGI。对于投资者和开发者而言,关注这种从“比特”到“原子”的跨越,将是未来十年的关键命题。
想要获取更多关于 OpenAIClaude 以及全球 AI新闻 的深度报道,欢迎持续关注 AINEWS官网,我们致力于提供最前沿的 AI资讯AI变现 洞察。
Loading...

没有找到文章