Memories.ai 沈俊潇:从 Meta 出走,剑桥博士如何用“视觉长期记忆”重构 AI 基础设施 | AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址

引言:当 AI 开始拥有“记忆”,AGI 的拼图才算完整
在当前的 人工智能 浪潮中,行业巨头如 openai、chatGPT 和 claude 都在疯狂卷“智力”(Intelligence),即更强的推理能力和更大的参数规模。然而,Memories.ai 的创始人沈俊潇(Shawn Shen)敏锐地察觉到,真正的 AGI 进化瓶颈并不在推理,而在于“记忆”(Memory)。
绝大多数现实世界的信息并非以文本形式存在,而是通过视觉信号持续记录。现有的多模态 大模型 在处理视频时,往往采取切片、打标签、生成简短描述(captioning)的方式,这种方式既昂贵又低效。沈俊潇从 Meta Reality Labs 出走,凭借剑桥博士的深厚学术背景,创立了 Memories.ai,并获得 Samsung Next 和 Susa Ventures 的千万美元押注。他提出了一套全新的底层逻辑:LVMM(Large Visual Memory Model),旨在为机器构建一套真正的视觉长期记忆系统。
从 Meta 到创业:洞察 AGI 的“眼睛”与“大脑”
沈俊潇的创业灵感源于他在 Meta Reality Labs 担任研究科学家期间的深刻观察。当时,他目睹了两个极具震撼力的项目:一个是全天候影像采集与 4D 重建,另一个是关于 Agent 未来形态的系统性讨论。
他意识到,未来的智能体如果无法理解“你是谁”,无法获取完整的上下文(full context),就永远无法替代人去执行复杂的任务。AI资讯 领域目前讨论的多数 Prompt 优化,本质上都是在有限的窗口内做文章。而沈俊潇认为,未来需要一个位于“人”与“所有 Agents”之间的中间层系统,这个系统保存的是完整、真实、长期的视觉记忆。这种“视觉记忆”才是未来 人工智能 能够真正理解人类偏好和生活方式的基础。
LVMM vs. Captioning:为什么现有的视频理解路径错了?
目前市面上主流的视频理解方案,本质上是“语言驱动”的。它们将视频转化为文字描述,再通过文本 RAG 进行检索。沈俊潇指出,这条路线存在三大致命缺陷:
- 注意力缺陷:生成描述前必须先有 Prompt,这预设了模型的注意力,导致非预设信息被永久丢失。
- 成本极高:将视频全量转化为 Token 的计算成本极其昂贵,无法支撑 24/7 的持续感知。
- 效率瓶颈:这种“既重、又慢、又贵”的方案,无法满足 LLM 在真实工作场景中的实时回溯需求。
相比之下,Memories.ai 采用的是“世界模型编码器(World Model Encoder)”。它不急于对齐语言,而是直接对视频进行全量编码,将视频流转化为向量空间中的连续记忆。这种架构让 AI 能够像人类一样,直接“消费”视觉数据,而不是依赖文字中间层。
视觉长期记忆的三个核心落地场景
Memories.ai 并不是在做一个简单的 AI 工具,而是在构建 AI 时代的基础设施。沈俊潇规划了三大业务方向,这代表了 AI变现 的清晰路径:
- 消费级 AI 硬件:为可穿戴设备提供“第二个数字副本”。它可以帮你找钥匙、记录卡路里,甚至作为 AI 相册,让你通过自然语言检索任何一个生活瞬间。
- 企业级运营管理:在安防和运营领域,通过极细颗粒度的视频理解,帮助企业优化工作流。例如,在餐饮连锁店中自动识别员工操作是否符合规范,提供明确的 ROI。
- 人形机器人:这是最长远的愿景。人形机器人需要像人一样具备真实的视觉长期记忆。Memories.ai 提出的“记忆模块”理念,让机器人可以实现记忆的可迁移性,当你更换新机器人时,你的“数字自我”可以被完整保留。
结论:反向切入 Memory 层,抢占 AGI 基础设施高地
在全行业都在卷推理和生成时,Memories.ai 选择反向切入“记忆层”,这展现了沈俊潇对 AGI 演进路径的独特判断。他认为,未来的竞争不在于谁的模型更会说话,而在于谁能更高效地存储、检索和理解这个世界的视觉存量。
对于关注 AI日报 和最新 AI新闻 的读者来说,Memories.ai 的出现标志着 AI 正在从“对话框”走向“全感知”。如果你想了解更多关于 大模型、提示词 优化以及 人工智能 的前沿应用,请持续关注 AIGC 门户,获取第一手行业深度解读。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)