CVPR前瞻!杭州团队首发端侧多模态模型VLX,AI资讯前沿解读

type
status
date
slug
summary
tags
category
icon
password
网址
在每天海量的AI资讯AI日报中,我们经常看到关于大模型LLM)参数量突破的新闻。无论是openaichatGPT,还是Anthropic的claude,云端大模型的竞争如火如荼。然而,想要实现真正的AGI(通用人工智能),AI必须从虚拟的对话框走向真实的物理世界。
就在近期刚结束的CVPR会议上,实时感知(Streaming)和精确定位(Grounding)成为了最受瞩目的研究方向。令人振奋的是,一家来自杭州的AI初创团队Om AI,率先将这一前沿方向落地到了端侧设备中,发布了全球首个面向物理世界的端侧流式多模态模型系列——VLX。这不仅是AI新闻领域的重磅炸弹,更为具身智能和AI变现提供了全新的基础设施。获取更多前沿行业洞察,欢迎访问专业的AI门户 AIGC Bar

物理世界的能力闭环:感知、定位与行动

传统的视觉语言模型(VLM)大多侧重于“看图说话”,它们可以为你生成优秀的提示词Prompt),或者对静态图片进行复杂的语义分析。但在真实的物理世界中,环境是动态且连续的。
VLX系列模型的核心突破,在于它构建了一条完整的物理世界能力链:感知(Perception)→ 精准定位(Grounding)→ 行动(Action)。为了实现这一目标,Om AI团队连续发布了三款协同工作的模型:
  1. VLX-Flow:主攻实时流式感知,让视频画面像水流一样持续输入。
  1. VLX-Seek:主攻精准定位,帮助模型从“看见”升级为“看清”,快速锁定目标。
  1. VLX-Go:主攻行动决策,将感知结果转化为真实的物理动作指令。
这三款模型并非各自为战,而是共享同一个底层基座,在同一条视频流上完成端到端的协作。这种设计彻底改变了以往AI只能“纸上谈兵”的窘境,让模型真正具备了在物理世界中执行任务的能力。

VLX-Flow与VLX-Seek:流式推理与精细感知的革新

在真实的物理环境中,物体不断运动,视角时刻切换。传统的视频理解大模型通常将视频切分成帧,进行离线处理。这种方式不仅计算成本高昂,且随着视频变长,极易丢失上下文信息,无法满足机器人的实时交互需求。
VLX-Flow巧妙地采用了流式处理架构。它利用增量编码和缓存机制,一边“看”一边更新对环境的认知。通过引入Linear Attention和双层记忆机制,Flow能够持续接收视频流,而不会导致显存爆炸。据测试,Flow处理单路视频最快仅需0.06秒,实现了极低的延迟响应。
VLX-Seek则解决了“看准”的问题。在复杂的环境中,仅仅知道“前方有障碍物”是不够的,机器人必须精确定位目标的具体位置。Seek摒弃了传统的自回归坐标预测方法,转而采用Region Token来替代传统坐标生成。这种“先生成候选区域,再进行检索匹配”的思路,不仅大幅降低了模型体积,还在开放词汇检测和细粒度定位上表现优异。

VLX-Go:打通具身智能的“最后一公里”

如果说Flow和Seek赋予了AI敏锐的感官,那么VLX-Go则赋予了AI行动的躯干。对于无人机或机器人而言,理解环境的最终目的是为了移动和操作。
传统的VLM往往只能输出文字建议,而VLX-Go能够直接接收单目视频、历史视觉记忆和自然语言指令,并将其转化为机器人可直接执行的短时航点(Waypoints)。它不依赖于复杂的长链路规划,仅用0.6B的超小参数量,就能预测未来一小段时间内的运动轨迹。
更值得一提的是,Go结合了离线轨迹学习和在线强化学习,能够在仿真闭环中不断修正策略。这意味着机器人在目标跟随、动态避障等任务中,能够根据实时视觉反馈做出极其稳定的调整。

Day 1端侧原生架构:为何“小而准”胜过“大而全”

在探讨AI落地时,我们必须面对一个现实:物理世界中的设备(如手机、无人机、摄像头)往往受到算力、网络和隐私的严格限制。它们等不起将数据上传云端再返回指令的几秒钟延迟。
目前行业内常见的做法是“模型压缩”,即先训练一个庞大的云端大模型,再通过蒸馏或量化技术塞进端侧。但Om AI选择了另一条更为艰难但也更彻底的道路——Day 1端侧原生设计。
从模型架构、推理方式到部署链路,VLX从第一天起就是围绕端侧设备的算力约束来设计的。这种“为端侧重新长出一套模型”的理念,证明了在特定场景下,“小而准”完全可以胜过“大而全”。Seek仅以3B级别的参数量,就在目标检测任务上媲美甚至超越了更大规模的通用模型。

结语:多模态模型形态的根本演进

VLX的诞生,标志着端侧流式多模态已经不再是一个“缩小版的VLM”,而是一种全新的模型形态。云端大模型将继续在复杂知识推理和长文本生成上狂奔,而端侧模型则将在低延迟、低功耗和持续感知上开辟新战场。
在这个AI技术日新月异的时代,掌握最新的AI资讯和技术动向,是抓住AI变现机遇的关键。Om AI团队交出的这份答卷,不仅让我们看到了中国AI团队在全球顶级学术会议(CVPR)热点方向上的敏锐嗅觉,更让我们对真正活在物理世界里的AGI充满期待。想要持续追踪大模型与人工智能的前沿发展,欢迎随时访问 AIGC Bar,获取最专业的全方位AI新闻与深度解析。
Loading...

没有找到文章