ICLR 2026 | 什么是异常?中传团队定义视频检测新范式,AI资讯全解析
type
status
date
slug
summary
tags
category
icon
password
网址

引言
在人工智能飞速发展的今天,视频异常检测(Video Anomaly Detection, VAD)作为智能监控、智慧交通和网络审核的核心技术,正面临着前所未有的挑战。传统的检测方法往往将“异常”视为一种固定的、静态的属性,但在复杂的现实世界中,异常的定义往往是动态变化的。近日,中国传媒大学媒体融合与传播国家重点实验室的吴晓雨教授团队在 ICLR 2026 上发表了突破性论文,提出了全新的开放世界视频异常检测范式。这一研究不仅重新定义了“异常”,更为 AI 资讯 领域带来了关于视觉理解的深度思考。
重新定义“异常”:从静态属性到动态概念
在以往的研究中,视频异常检测通常采用“封闭集合”或“开放集合”的方法。这些方法假设某些行为(如奔跑、吸烟)在任何场景下都是异常或正常的。然而,现实并非如此:
- 场景敏感性:吸烟在加油站是极度危险的异常,但在指定的吸烟区则是正常行为。
- 时间敏感性:在流感大流行期间,不戴口罩可能被视为异常,而在普通时期则是个人自由。
- 需求敏感性:在图书馆奔跑是异常,但在体育场则是常态。
中传团队敏锐地意识到,异常性并非事件本身的固有属性,而是由视频内容与用户定义共同决定的。这种认知的转变,标志着 VAD 领域从“特征匹配”向“语义理解”的跨越。
LaGoVAD:语言引导的开放世界检测新架构
针对动态定义的需求,研究团队提出了 LaGoVAD 模型。该模型的核心思想是“视频与异常定义联合建模”。
在数学模型上,传统方法追求的是 $P(Y|V)$(即给定视频 $V$ 得到标签 $Y$),而 LaGoVAD 引入了变量 $Z$(异常定义),旨在学习 $P(Y|V, Z)$。通过添加文本支路,LaGoVAD 允许用户使用自然语言直接定义什么是异常。这意味着,只要用户改变了描述文字,模型的检测逻辑就会随之调整,极大地增强了模型在开放世界中的适应能力。这对于关注 LLM 和 大模型 应用的开发者来说,提供了一个极佳的跨模态融合范例。
攻克过拟合:困难负样本挖掘与伪标签合成
建模更复杂的多模态空间 $P(V, Z, Y)$ 带来了巨大的挑战,尤其是 VAD 领域长期存在的数据稀缺和标签粗糙问题。为了防止模型过拟合,LaGoVAD 引入了两大核心技术手段:
- 困难负样本挖掘:从仅有弱标签的数据中,通过算法识别出与异常片段视觉特征极度接近的正常片段。这种方法显著增强了模型对异常与正常帧之间微小边界的判别能力。
- 语义向量检索与长视频合成:利用语义检索技术动态合成带有伪标签的长视频,从而丰富了异常时间段的分布。这一手段有效缓解了模型对异常事件长度的偏见,提升了样本的多样性。
这些技术细节展示了当前 人工智能 领域在处理小样本、弱监督学习任务时的最新思路,对于寻求 AI变现 和技术落地的企业具有重要的参考价值。
PreVAD:迄今最大规模预训练视频异常数据集
高质量的数据是 大模型 成功的基石。中传团队通过结合多个基础模型与自动化标注流程,构建并开源了 PreVAD 数据集。
- 规模宏大:包含 35K 段高质量视频数据。
- 多层级标注:不仅有类别标签,还包含详细的异常文本描述。
- 高质量:通过自动化流程确保了标注的精准度。
目前,该数据集已在 Modelscope 平台开源。这为全球的 AI 研究者提供了一个宝贵的“练兵场”,也进一步推动了 AGI 在视觉感知层面的进化。
实验结果:跨域泛化与零样本评估的突破
LaGoVAD 在 7 个主流数据集(如 UCF-Crime, XD-Violence, DoTA 等)上进行了广泛测试。实验结果令人振奋:
- 零样本性能领先:在直接进行跨域零样本评估时,LaGoVAD 在所有数据集上均取得了 SOTA(最先进)性能。
- XD-Violence 突破:在 XD-Violence 数据集上,相较于现有最优方法提升了整整 20%。
- 动态适应能力:在面对“狗打翻垃圾桶”等非传统异常定义时,LaGoVAD 能够根据用户指令灵敏地给出高异常分数,而传统大模型(如 Qwen 系列)往往反应迟钝。
总结与展望
中传团队的这项研究不仅在学术上证明了“异常需要定义”的必要性,更为 AI资讯 行业展示了多模态技术在垂直领域的深耕潜力。随着 LaGoVAD 代码和数据集的开源,我们有理由相信,未来的智能监控将不再是死板的规则引擎,而是能够听懂人话、理解环境的智能助手。
如果你想了解更多前沿的 AI新闻、获取最新的 Prompt 技巧或探索 大模型 的更多可能性,欢迎访问我们的 AI门户。我们将持续为你带来最深度的 AI日报 和技术解读。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)