阶跃星辰豪赌多模态:AGI前夜「理解生成一体化」的深耕之路 | AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能(AI)浪潮席卷全球的今天,众多AI企业如雨后春笋般涌现,市场竞争日趋激烈。在这股热潮中,阶跃星辰以其独特的低调与专注,选择了一条充满挑战却又可能通往通用人工智能(AGI)的“豪赌”之路——深耕多模态技术。其CEO姜大昕更是多次强调:“多模态是实现AGI的必经之路。”本文将深入解读阶跃星辰的这一核心战略、面临的挑战以及其对AI未来的深远影响。更多AI前沿动态,欢迎访问AI门户网站
https://aigc.bar
获取最新AI资讯。多模态:AGI皇冠上的明珠
姜大昕认为,AGI对标的是人类智能,而人类智能本身就是多元化的,融合了语言、视觉、听觉、空间感知等多种模态。因此,要实现真正意义上的AGI,AI系统必须具备强大的多模态理解和生成能力。如果AI仅仅停留在单一模态,例如纯文本的LLM,那么它对世界的感知和交互将是片面和受限的。
从应用角度看,无论是智能助手、自动驾驶还是复杂的科学研究,AI都需要能够“听、看、说”,全面感知和理解环境,才能与用户进行自然高效的交互,并完成复杂任务。因此,阶跃星辰坚信,在多模态领域的任何一个短板,都可能延缓AGI的整体进程。这不仅是对技术趋势的判断,更是对AI未来形态的深刻洞察。
阶跃星辰的险棋:“理解生成一体化”的深耕
面对多模态这一新兴领域,阶跃星辰并没有选择相对容易的“多模融合”路径,而是从成立之初就定下了“理解+生成一体化”的原生多模方向。这意味着同一个大模型需要同时具备强大的理解能力和高质量的生成能力。这无疑是一条“难上加难”的技术路线,但阶跃星辰认为这是通往更高智能水平的关键。
姜大昕解释道,理解和生成是原生多模方向的一体两面:
* 能理解:模型需要准确理解图像、视频、语音等多模态信息中的复杂关系和深层含义,而这种理解能力的提升,需要生成能力的监督和验证。
* 能生成:模型生成的内容,无论是图像、视频还是音频,都需要以深刻的理解为基础,确保其符合物理世界规律、逻辑自洽且有意义。
这种“理解生成一体化”的理念,旨在打破当前许多模型在理解与生成能力上的割裂。正如在语言模型领域,Transformer架构的出现奠定了可规模化(scalable)的理解生成一体化基础,阶跃星辰也期望在视觉及更广泛的多模态领域找到类似的突破口。虽然这条路充满未知,但其潜在的回报——构建真正智能的AI系统——无疑是巨大的,也为未来的AI变现开辟了更多可能性。
迷雾航行:多模态技术的挑战与“GPT-1.0”时刻
尽管多模态被视为AGI的关键,但其技术发展尚处于早期阶段,远未达到语言模型领域技术路线的收敛程度。姜大昕甚至将阶跃星辰押注的“理解生成一体化”原生多模方向,类比为语言模型在Transformer架构刚出现,大约GPT 1.0之前的阶段。这意味着行业仍在迷雾中穿行,充满了不确定性。
多模态技术的一大核心挑战在于模态的复杂度。以视觉领域为例,姜大昕指出,语言虽然复杂,但从统计上看,其token数量(十几万个)相对有限。而一张1024x1024的图片就包含百万维数据,且每个维度是连续空间,视频的复杂度更是指数级增长。因此,在视觉领域实现类似语言模型中“Predict next token”的“Predict next frame”的统一任务,至今仍是未能解决的灵魂拷问。
即便是像Sora这样在视频生成领域引起轰动的模型,在姜大昕看来也存在遗憾,因为它更侧重于“生成”而对“理解”的探索不足。这进一步凸显了“理解生成一体化”的重要性与艰巨性。在探索的道路上,即便是强大的openai和chatGPT也在不断迭代,以期突破瓶颈。
Agent协同:多模态赋能未来智能体
展望未来,多模态和Agent被认为是AI领域接下来最重要的两个关键词。Agent被视为当前业界在AGI道路上探索出的初始形态,它需要具备感知环境、理解意图、规划行动并与环境交互的能力。而强大的多模态能力,正是Agent实现这些功能的基石。
阶跃星辰早已洞察到这一趋势,并在Agent领域进行了重点布局。通过将自研的多模态大模型与Agent技术相结合,阶跃星辰已与Oppo、吉利汽车集团、千里科技等企业在手机、汽车、具身智能、IoT等关键场景展开合作,推动Agent应用的落地。一个能够充分理解和感知多模态信息世界的Agent,无疑能更好地理解用户意图,提供更智能、更个性化的服务。这方面的进展,也常常成为AI新闻和AI日报关注的焦点。
豪赌的逻辑:焦虑时代的创新突围
随着DeepSeek等模型的崛起,大模型领域原有的技术壁垒正在被快速击穿,这让所有从业者,尤其是AI初创企业,都走到了一个焦虑的十字路口:技术路线该何去何从?是选择相对成熟的语言模型赛道继续内卷,还是勇敢地迈向更前沿、更未知的领域?
面对这种行业性的焦虑,阶跃星辰给出的答案是后者。姜大昕认为,对创业公司而言,探索更前沿、更未知的领域,或许是这个阶段更重要、也更确定的事情。因此,阶跃星辰选择在多模态这一“无人区”进行深耕,即便这意味着一场“豪赌”。为了增加成功的概率,阶跃内部已经组织起不同技术路线的数支团队,以“并发的状态”进行探索,因为“哪一条路线都有可能出现突破”。
这种“豪赌”的背后,是对追求智能上限的执着,也是对行业发展规律的深刻理解。在快速变化的人工智能时代,唯有持续创新,敢于挑战未知,才能在激烈的竞争中占据一席之地。
结论
阶跃星辰在多模态领域的“豪赌”,并非盲目跟风,而是基于对AGI本质和技术发展路径的深刻洞察。其坚持的“理解生成一体化”战略,虽然道阻且长,却直指多模态技术的核心难题,展现了其在人工智能领域的雄心与远见。面对行业焦虑与技术迭代的浪潮,阶跃星辰选择了一条更艰难但也可能更接近AGI的道路。未来,随着多模态技术的不断突破和Agent应用的逐步成熟,我们有理由期待一个更加智能、更加便捷的AI时代。
想了解更多关于AI、AGI、LLM、大模型以及最新AI资讯和Prompt技巧,请持续关注AI门户
https://aigc.bar
。Loading...