VideoDR评测基准发布:视频理解融合搜索,大模型迈向Deep Research

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
随着人工智能技术的飞速发展,多模态大模型(LMM)在处理视频内容方面已经取得了显著进步。然而,现有的模型往往被困在“视频”的孤岛里——它们只能回答视频画面内显而易见的问题。但在真实世界中,人类解决问题往往是一个复杂的“看视频找线索 -> 上网搜证 -> 综合推理”的过程。为了填补这一空白,来自QuantaAlpha、兰州大学、香港科技大学(广州)、北京大学等机构的研究者联合推出了首个视频深度研究(Video Deep Research)评测基准——VideoDR。
作为关注前沿AI资讯AGI发展的专业平台,AIGC.BAR 将带您深入解读这一里程碑式的研究,探讨其背后的技术逻辑以及对未来大模型发展的深远影响。

打破“视频孤岛”:从VideoQA到Deep Research

在传统的视频问答(VideoQA)任务中,答案通常直接隐藏在视频的像素里。例如,“视频里的人穿什么颜色的衣服?”这种问题只需要模型具备基础的视觉识别能力。然而,真正的智能Video Agent应该具备Deep Research(深度研究)的能力。
VideoDR定义了一个全新的任务范式。试想这样一个场景:你在视频中看到博物馆的一个展品,想知道“该博物馆推荐的展品中,距离这个展品最近的那个,其注册编号是多少?”这不仅仅需要理解视频(识别展品、定位位置),还需要跳出视频,去博物馆官网查找地图、推荐列表和编号信息。
VideoDR为此设立了严格的标准: * 双重依赖性测试:剔除了那些“只看视频就能答”或“只搜文字就能答”的样本,确保模型必须结合视觉感知与外部搜索能力。 * 六大领域覆盖:涵盖日常生活、经济、科技、文化、历史、地理,全面测试AI的综合素质。
这种能力的跨越,标志着大模型从单纯的感知工具向具备复杂推理能力的智能体迈进。想要了解更多关于此类AI新闻和技术突破,请持续关注我们的AI门户

两种范式的博弈:Workflow vs. Agentic

在VideoDR的评测中,研究人员对比了两种主流的解决问题范式,这对于我们理解LLM(大型语言模型)如何处理复杂任务至关重要:
  1. Workflow(工作流模式):这种模式将视频转化为结构化的文本线索,然后再进行搜索推理。显式的中间文本充当了“外部记忆”,帮助模型记录关键信息。
  1. Agentic(代理模式):模型直接端到端处理视频和搜索,自主决定何时搜索、何时思考。这是目前OpenAI等公司致力推崇的方向。
谁是更强的王者? 评测结果出人意料。虽然Agentic模式看似更灵活、更接近人类直觉,但在长视频或高难度任务中,模型容易出现目标漂移(Goal Drift)。相比之下,Workflow模式通过文本记录,防止了模型在漫长的搜索链路中忘记最初视频里的视觉细节。
这一发现揭示了当前Prompt工程和模型架构设计中的一个重要权衡:是追求极致的端到端自主性,还是保留结构化的中间步骤以确保准确性?

长视频是“照妖镜”:记忆衰退与长程一致性

VideoDR的评测结果深刻揭示了“端到端”并非万能药。在面对长链路搜索时,许多模型陷入了“记忆衰退”的困境。长视频场景成为了检验模型能力的“照妖镜”。
在测试中,包括GPT-5.2GPT-4oGemini-3-pro-preview以及开源模型如Qwen3-Omni等在内的顶尖模型接受了挑战。结果显示: * Gemini-3-pro-preview和GPT-5.2处于第一梯队,准确率达到了69%-76%左右。 * 在长视频场景下,模型保持长期一致性(Long-horizon Consistency)的能力成为瓶颈。
一旦初始的视觉感知出现偏差,且无法回看视频,错误的搜索路径会被不断放大。这意味着,未来的视频Agent只有在保持视觉线索的长程一致性上取得突破,才能真正胜任真实世界的复杂调研任务。

总结与展望

VideoDR将视频理解的战场从封闭测试集延伸到了无限的开放网络。它证明了,单纯提升模型的参数量并不是解决所有问题的关键,如何让人工智能在处理多模态信息时具备更强的逻辑推理和记忆保持能力,是通往AGI的必经之路。
对于开发者和研究人员而言,利用好ChatGPTClaude等先进工具进行辅助研究至关重要。如果您对如何利用大模型API进行开发,或者想要获取最新的AI日报AI变现策略,请务必访问 AIGC.BAR。我们将持续为您带来最前沿的深度解析。
Loading...

没有找到文章