多模态是AGI的必经之路吗?阶跃星辰姜大昕的战略深思与AIGC.bar洞察

type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能(AI)浪潮席卷全球的今天,通用人工智能(AGI)无疑是业界追逐的圣杯。当许多参与者选择在基础大模型研发上“减负”,转向更垂直的应用赛道时,阶跃星辰及其创始人兼CEO姜大昕却给出了一个坚定的反向答案:死磕基座大模型,并深入探索多模态理解与生成的一体化。这一战略选择背后,蕴藏着对AI发展趋势的深刻洞察和对AGI实现路径的独特思考。更多AI新闻与AI资讯,请关注AI门户AIGC.bar。

为何阶跃星辰坚持“死磕”基座大模型?

姜大昕认为,大模型行业的技术发展仍处于一个“非常陡峭的区间”。他感慨AI行业的瞬息万变,“去年大家觉得GPT-4很牛,今天他都快下架了”,预示着技术迭代的速度远超想象。在这样的背景下,阶跃星辰选择坚持基础模型的研发,是不愿放弃在主流增长趋势中前进的机会。
更深层次的原因在于,阶跃星辰坚信“模型可以决定应用的上限,应用给模型提供具体的应用场景和数据”。尽管其产品形态(如从“跃问”到“阶跃AI”的演变,从App到端云一体Agent平台的转型)会随着模型进化而动态发展,但这种模型与应用相辅相成的核心逻辑始终不变。正如OpenAI先有GPT-3.5的技术突破,而后才有ChatGPT的现象级应用,模型的持续突破是推动整个行业前进的根本动力。因此,在基座模型上持续投入,追求智能的上限,是阶跃星辰当前最重要的任务。

多模态:通往AGI的“入场券”

姜大昕在多个场合反复强调一个核心观点:“多模态是实现AGI的必经之路。”这不仅因为人类智能本身就是多元化的,涵盖符号智能、视觉智能、空间智能等多个维度,也因为现实世界中的AI应用需求往往是多模态的。
基于这一认知,阶跃星辰在基座模型的研发上采取了看似“散弹式”的打法。成立两年以来,公司累计发布了22款基座模型,广泛覆盖文字、语音、图像、视频、音乐、推理等多个系列。其中,多模态模型多达16款,占比超过七成,细分至图像理解、视频理解、图像生成、视频生成、图像编辑、音乐生成以及多模态推理等多个方向。这种对多模态领域的全面布局,也让阶跃星辰被业界戏称为“多模态卷王”。

核心突破口:多模态理解生成一体化

阶跃星辰的AGI探索路径清晰明确:“单模态——多模态——多模态理解和生成的统一——世界模型——AGI”。姜大昕特别强调了“多模态理解生成一体化”的重要性。
他解释道,这指的是用一个统一的模型来完成多模态内容的理解与生成,而非传统“感知-认知-生成”的三段式分离流程(例如,视频/图像/语言转文本 -> 文本理解与生成 -> 生成结果转视频/图像/语音)。虽然大语言模型(LLM)如GPT系列已在文本领域实现了理解与生成的一体化(Next-Token-Prediction),但在视觉等多模态领域,这一目标远未达成。人们往往需要一个模型进行视觉理解,再调用另一个模型进行视觉生成。
其挑战在于,语言文本模态是低维度、离散分布的,而视觉模态则是高维度、连续分布的,后者的训练学习复杂性要高得多。从技术角度看,视觉内容的生成需要深刻的理解来控制其意义和价值,即对视觉“上下文”的精准把握。反过来,理解的深度也需要通过生成来检验和监督——“只有生成了的时候才是真正的理解了”。
阶跃星辰的目标,正是在视觉领域打造出类似Transformer的、可扩展的、理解生成一体化的架构。姜大昕透露,OpenAI的GPT-4o可能已经初步实现了这一目标,而阶跃星辰的图像编辑模型Step1X-Edit也迈出了探索性的一步。尽管Step1X-Edit仍有改进空间,但其代表了向正确方向的努力。

多路并行:阶跃星辰的探索与信心

既然多模态理解生成一体化是未来,为何阶跃星辰不将所有资源集中于如Step-R1-V-Mini这样的多模态推理模型,而是要在各个单模态上都持续发力呢?
姜大昕坦言,直接攻坚完全一体化的模型目前并不可行,因为这需要企业自身具备在各个模态上都非常强的综合实力。阶跃星辰之所以选择多条技术路线并行探索,正是因为其在文本、图像、语音等多个模态上都已积累了强大的单点能力。“我们几条线的能力都非常强,所以才可以组合起来去探索这个路径。”这种信心源于团队在各个细分模态上的深厚积累。他相信,一旦在某条路线上取得突破,后续的发展将更为顺畅。

结论

阶跃星辰CEO姜大昕的战略思考为我们揭示了在通往AGI的征途上,坚持底层创新和拥抱多模态复杂性的重要性。通过“死磕”基座大模型,并积极探索多模态理解与生成的一体化,阶跃星辰正试图构建一条独特的AGI实现路径。这不仅是对当前AI技术趋势的深刻洞察,也是对未来智能形态的前瞻性布局。人工智能的发展日新月异,对于AGI的探索充满了未知与挑战,但正是像阶跃星辰这样的企业的执着与创新,让我们对未来充满期待。想要获取更多关于AI、LLM、大模型、提示词(Prompt)以及AI变现的前沿信息,欢迎持续关注AI门户网站AIGC.bar,获取最新的AI日报和深度分析。
Loading...

没有找到文章