谷歌DeepMind老将创立Elorian:5000万美元押注多模态视觉AI新未来 | AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在人工智能浪潮持续高涨的今天,顶尖人才的流动往往预示着下一个技术爆发点的到来。近期,硅谷AI圈再次传来重磅消息:两名拥有深厚技术背景的华人科学家——前谷歌DeepMind资深研究员Andrew Dai(戴明博)与前苹果AI研究科学家Yinfei Yang(杨寅飞),联手创立了一家名为Elorian的全新视觉AI公司。
这家目前仍处于“隐身模式”的初创企业,一经曝光便吸引了资本市场的强烈关注。据悉,Elorian正在洽谈一轮约5000万美元的种子融资,旨在打造能够同时理解文本、图像、视频与音频的前沿多模态AI模型。本文将深入剖析这两位创始人的技术背景,解读Elorian的潜在战略方向,以及这起融资背后的行业信号。

谷歌与苹果基因的强强联手

Elorian之所以能引起如此大的关注,核心在于其创始团队堪称“梦之队”的履历。这不仅仅是两个名字的组合,更是谷歌与苹果两大科技巨头在AI底层技术上的经验融合。
Andrew Dai(戴明博)是谷歌生态系统的资深老将。他在谷歌深耕了长达14年,从一名实习生一路成长为Google DeepMind的首席研究科学家及主任级管理者。他的职业生涯见证了深度学习从实验室走向大规模应用的完整历程。在离职前,他负责领导与Gemini大型AI模型研发相关的数据团队工作。众所周知,Gemini是谷歌对抗OpenAI的核心战略武器,戴明博在其中扮演的角色,意味着他对大规模多模态数据的处理、清洗和训练有着世界顶级的理解。
另一位联合创始人Yinfei Yang(杨寅飞)则带来了跨平台的丰富经验。他不仅曾在Google Research工作,还在Amazon和Redfin积累了工业级研发经验,更在近期担任Apple AI/ML的多模态负责人。他在视觉-语言联合表示(Vision-Language Representation)领域的造诣极深,其代表作《Scaling up visual and vision-language representation learning with noisy text supervision》被认为是推动多模态学习发展的重要文献。
两人的结合,意味着Elorian在起步阶段就拥有了处理超大规模数据(来自Dai的经验)和构建高效视觉语言模型(来自Yang的专长)的双重优势。

Elorian的核心愿景:超越单一模态的视觉理解

根据目前的公开信息,Elorian并没有将自己局限于简单的图像生成或文本对话。戴明博在接受采访时明确表示,公司的核心目标是构建能够同时处理图像、视频与音频的模型,以实现对现实世界的真正视觉理解与分析。
目前的AI市场虽然火热,但大多数模型仍存在“偏科”现象。有的擅长画图(如Midjourney),有的擅长对话(如各类LLM),但在真正的多模态融合——即像人类一样通过看、听、读来综合理解环境——方面,仍有巨大的提升空间。Elorian试图解决的正是这一痛点。
这种全方位的感知能力有着极其广阔的应用前景。虽然机器人(Robotics)被提及为一个潜在方向,但这只是冰山一角。想象一下,一个能够完美理解视频内容并结合音频语境进行分析的AI,在安防监控、自动驾驶、医疗影像诊断、甚至复杂的工业质检中将发挥怎样的颠覆性作用。

5000万美元种子轮:资本市场的信心投票

在当前的创投环境下,种子轮融资达到5000万美元是一个非常惊人的数字。这通常只发生在那些拥有极高技术壁垒和明星团队的项目上。
知情人士透露,由前CRV普通合伙人Max Gazor创立的风投机构Striker Venture Partners正在洽谈领投该轮融资。这表明顶级投资人对于“谷歌系”+“苹果系”人才创业的高度认可,同时也反映了市场对于下一代多模态大模型(Multimodal LLM)的渴望。
这笔资金将主要用于算力储备和人才招募。训练高性能的视觉AI模型对GPU资源的需求是巨大的,而在目前的算力紧缺背景下,拥有充足的资金是初创公司存活并突围的关键。

隐身模式下的战略思考

目前,戴明博与杨寅飞在LinkedIn上的状态均更新为“隐身(stealth)”,且戴明博担任CEO。这种低调的姿态在硅谷硬科技创业中并不罕见。
隐身模式通常意味着团队正在进行核心技术的封闭开发,避免过早暴露技术路线图给竞争对手。对于Elorian来说,他们可能正在攻克某些关键的技术难题,例如如何更高效地融合视频和音频数据,或者如何在保持模型精度的同时降低推理成本。
这种神秘感反而增加了外界的期待。考虑到两位创始人在自然语言处理、语义检索和多模态表示学习方面的深厚积累,Elorian的首款产品极有可能在技术指标上对标甚至超越目前的行业SOTA(State of the Art)水平。

结语:多模态AI的战国时代

Elorian的成立和巨额融资计划,再次印证了AI新闻领域的判断:2024年及以后,将是多模态AI全面爆发的时期。单纯的文本大模型竞争格局已定,而视觉、听觉与文本融合的物理世界理解能力,才是通往AGI(通用人工智能)的必经之路。
对于关注人工智能发展的从业者和投资者来说,Elorian无疑是一个值得密切跟踪的标的。它不仅代表了华人科学家在世界AI舞台上的重要力量,也预示着视觉AI技术正从“生成”向更深层次的“理解”迈进。
想要了解更多关于AI领域的最新动态、大模型技术解析以及前沿资讯,请持续关注 AIGC.BAR。这里汇集了最及时的AI资讯、深度的LLM分析以及丰富的Prompt技巧,助你在AI时代保持领先。
Loading...

没有找到文章