AI的视觉海马体:Memories.ai如何为AGI打造终极记忆
type
status
date
slug
summary
tags
category
icon
password
网址
引言:当AI开始拥有“记忆”
在人工智能(AI)飞速发展的今天,从ChatGPT到各类大模型,我们见证了机器在语言理解和生成上的巨大飞跃。然而,一个根本性的瓶颈依然存在:AI能够处理信息,却无法像人类一样真正地“记住”世界。目前的AI记忆,大多停留在对文本的“上下文工程”,这是一种巧妙的变通,却非真正的解决方案。
当AI面对构成我们现实世界的、源源不断的视觉数据流时,其“记忆”便显得苍白无力。正如Memories.ai创始人Shawn所言,下一个前沿,是给予AI关于世界的真实记忆。他们正致力于构建一个基础性的视觉记忆层——一个所有AI的“视觉海马体”,为通往通用人工智能(AGI)的道路,补上至关重要的一块拼图。
超越文本:为何视觉记忆是AI的“失落拼图”?
许多人对AI记忆的理解,还局限于文本记忆(textual memory)。然而,这与Memories.ai所专注的视觉记忆(visual memory)有着本质区别。
* 上下文工程 vs. 真实记忆:当前主流的AI Agent记忆,本质上是上下文工程(context engineering)。它通过优化输入给大模型的信息组合(prompt),来获得更好的输出。这更像是一种输入输出的优化技巧,而非真正意义上模拟人脑的记忆过程。
* 数据特性的鸿沟:人类的记忆,尤其是情景记忆,本质上是视觉的。文字是人类发明的抽象符号,而视频则是原始数据(raw data)。视频数据具有两个核心挑战:
1. 海量数据:一秒视频包含数十帧图像,一天产生的视觉数据量远超一个人一生阅读的文字量。
2. 低信噪比:视频中包含了大量冗余和无用的“噪声”信息。
Shawn用一个生动的比喻解释了这一点:人类可以“一目十行”地快速阅读文本,因为文字具有可预测性;但我们无法“一目十分钟”地看电影,因为视频帧间的跳跃性太强,信息密度和噪声都极高。这揭示了AI要真正理解和记忆世界,必须攻克视觉数据这一难关。
揭秘LVMM:模拟人脑的“视觉海马体”架构
为了应对视觉记忆的挑战,Memories.ai没有选择单一的端到端模型,而是推出了一个受人脑启发的复杂系统——大型视觉记忆模型(Large Visual Memory Model, LVMM)。
LVMM的设计理念深度借鉴了人脑的记忆机制,将复杂的记忆过程拆解为多个协同工作的模块化模型:
- 压缩(Compression):接收原始视频流,结合低级和高级视觉技术,对其进行高效压缩,去除噪声,提取关键信息。
- 索引(Indexing):使用自研的分词器(tokenizer)将压缩后的视觉信息进行“分词”,并建立高效的索引,使其可以被快速检索。
- 聚合(Aggregation):对海量的视觉“tokens”进行归纳和总结,形成更高层次的抽象认知,类似于人类形成“常识”或“知识体系”的过程。
- 查询(Querying):构建一个庞大的数据库,允许AI Agent或其他应用在此之上进行高效的搜索和问答,实现对过去视觉信息的“回忆”。
尽管这套系统在架构上实现了对人脑的精妙模拟,并突破了Gemini等模型对视频长度的限制,但Shawn也坦言,在实现人类级别的“记忆重构与抽象”以及“终身学习”方面,仍有很长的路要走。但这套工程化的系统,已经成功地将“处理无限视频”从一个概念变成了一个可以规模化运行的现实。
从基建到应用:视觉记忆的商业化蓝图
Memories.ai的定位并非与AI应用公司竞争,而是成为它们的赋能者——一个B2B基础设施(Infra)提供商,类似于视觉记忆领域的“云厂商”。其核心护城河,正是团队源自Meta等大厂、处理过亿级数据库的PB级(petabyte-scale)基础设施构建与管理能力。
基于强大的底层技术,视觉记忆的应用场景正在迅速铺开:
- 智能安防:不再是简单的移动侦测,而是能够结合历史数据流,进行实时的趋势分析和异常检测。在零售、楼宇管理等B2B场景,可用于分析顾客动线、翻台率等,提供深度商业洞察。
- 媒体与内容创作:为短剧等媒体资产提供“拉片”级别的精细化分析,精确到毫秒级的人物和情节信息。通过对海量视频库的理解和再利用,可以自动化完成内容的剪辑、拼接和再创作,形成完整的生产力解决方案。
- 视频营销:通过索引海量TikTok等平台的视频,构建了一个强大的“创意引擎”。营销人员不再需要靠“网感”猜测趋势,而是可以直接查询“最近什么产品火了”、“爆款视频的创意点是什么”,甚至直接找到相关的网红博主,极大地提升了营销效率。
赋能未来:视觉记忆解锁下一代AI
视觉记忆技术的成熟,将成为解锁下一代人工智能的关键钥匙。
随着多模态AI和AI硬件(如AI眼镜、AI Pin)的兴起,一个能够“看见并记住”的AI助手将不再是科幻。想象一下,你的AI助手能够记住你几周前在会议上讨论过的设计稿,能够根据你过去的生活习惯主动提供建议,能够理解你在现实世界中的操作并提供帮助。这一切都依赖于一个持久、可靠的视觉记忆系统。
Memories.ai正在做的,不仅仅是让AI看懂视频,更是在为未来的AGI构建一个核心组件,让它们能像我们一样去体验、记忆并从真实世界中学习。
结论
从语言处理到视觉记忆,AI的发展正在迈向一个更深、更广的维度。Memories.ai通过其创新的LVMM架构和强大的基础设施能力,正在将“AI拥有视觉记忆”这一宏大愿景变为现实。这不仅将重塑安防、媒体和营销等行业,更重要的是,它为通往真正个性化、能够与物理世界深度交互的AGI铺设了坚实的基石。
想了解更多关于AI、AGI和大模型的前沿AI资讯和深度解读,欢迎访问AIGC导航站(https://www.aigc.bar),获取最新的AI新闻和行业洞察。
Loading...