谷歌DeepMind老将创立Elorian：5000万美元押注多模态视觉AI新未来 | AI资讯

type

status

date

slug

summary

谷歌与苹果基因的强强联手

Elorian之所以能引起如此大的关注，核心在于其创始团队堪称“梦之队”的履历。这不仅仅是两个名字的组合，更是谷歌与苹果两大科技巨头在AI底层技术上的经验融合。

Andrew Dai（戴明博）是谷歌生态系统的资深老将。他在谷歌深耕了长达14年，从一名实习生一路成长为Google DeepMind的首席研究科学家及主任级管理者。他的职业生涯见证了深度学习从实验室走向大规模应用的完整历程。在离职前，他负责领导与Gemini大型AI模型研发相关的数据团队工作。众所周知，Gemini是谷歌对抗OpenAI的核心战略武器，戴明博在其中扮演的角色，意味着他对大规模多模态数据的处理、清洗和训练有着世界顶级的理解。

另一位联合创始人Yinfei Yang（杨寅飞）则带来了跨平台的丰富经验。他不仅曾在Google Research工作，还在Amazon和Redfin积累了工业级研发经验，更在近期担任Apple AI/ML的多模态负责人。他在视觉-语言联合表示（Vision-Language Representation）领域的造诣极深，其代表作《Scaling up visual and vision-language representation learning with noisy text supervision》被认为是推动多模态学习发展的重要文献。

两人的结合，意味着Elorian在起步阶段就拥有了处理超大规模数据（来自Dai的经验）和构建高效视觉语言模型（来自Yang的专长）的双重优势。

Elorian的核心愿景：超越单一模态的视觉理解

根据目前的公开信息，Elorian并没有将自己局限于简单的图像生成或文本对话。戴明博在接受采访时明确表示，公司的核心目标是构建能够同时处理图像、视频与音频的模型，以实现对现实世界的真正视觉理解与分析。

目前的AI市场虽然火热，但大多数模型仍存在“偏科”现象。有的擅长画图（如Midjourney），有的擅长对话（如各类LLM），但在真正的多模态融合——即像人类一样通过看、听、读来综合理解环境——方面，仍有巨大的提升空间。Elorian试图解决的正是这一痛点。

这种全方位的感知能力有着极其广阔的应用前景。虽然机器人（Robotics）被提及为一个潜在方向，但这只是冰山一角。想象一下，一个能够完美理解视频内容并结合音频语境进行分析的AI，在安防监控、自动驾驶、医疗影像诊断、甚至复杂的工业质检中将发挥怎样的颠覆性作用。

5000万美元种子轮：资本市场的信心投票

在当前的创投环境下，种子轮融资达到5000万美元是一个非常惊人的数字。这通常只发生在那些拥有极高技术壁垒和明星团队的项目上。

知情人士透露，由前CRV普通合伙人Max Gazor创立的风投机构Striker Venture Partners正在洽谈领投该轮融资。这表明顶级投资人对于“谷歌系”+“苹果系”人才创业的高度认可，同时也反映了市场对于下一代多模态大模型（Multimodal LLM）的渴望。

这笔资金将主要用于算力储备和人才招募。训练高性能的视觉AI模型对GPU资源的需求是巨大的，而在目前的算力紧缺背景下，拥有充足的资金是初创公司存活并突围的关键。

隐身模式下的战略思考

目前，戴明博与杨寅飞在LinkedIn上的状态均更新为“隐身（stealth）”，且戴明博担任CEO。这种低调的姿态在硅谷硬科技创业中并不罕见。

隐身模式通常意味着团队正在进行核心技术的封闭开发，避免过早暴露技术路线图给竞争对手。对于Elorian来说，他们可能正在攻克某些关键的技术难题，例如如何更高效地融合视频和音频数据，或者如何在保持模型精度的同时降低推理成本。

这种神秘感反而增加了外界的期待。考虑到两位创始人在自然语言处理、语义检索和多模态表示学习方面的深厚积累，Elorian的首款产品极有可能在技术指标上对标甚至超越目前的行业SOTA（State of the Art）水平。

结语：多模态AI的战国时代

Elorian的成立和巨额融资计划，再次印证了AI新闻领域的判断：2024年及以后，将是多模态AI全面爆发的时期。单纯的文本大模型竞争格局已定，而视觉、听觉与文本融合的物理世界理解能力，才是通往AGI（通用人工智能）的必经之路。

对于关注人工智能发展的从业者和投资者来说，Elorian无疑是一个值得密切跟踪的标的。它不仅代表了华人科学家在世界AI舞台上的重要力量，也预示着视觉AI技术正从“生成”向更深层次的“理解”迈进。

想要了解更多关于AI领域的最新动态、大模型技术解析以及前沿资讯，请持续关注 AIGC.BAR。这里汇集了最及时的AI资讯、深度的LLM分析以及丰富的Prompt技巧，助你在AI时代保持领先。