动态异常定义下的视频异常检测新范式:LaGoVAD模型发布
机器之心2026/02/13 17:10机翻/自动摘要/自动分类
2 阅读
摘要
中国传媒大学吴晓雨教授团队在ICLR 2026上提出LaGoVAD模型,通过语言引导实现动态异常定义下的视频异常检测。该模型联合建模视频与异常定义,采用正则化手段和大规模预训练数据集,显著提升了跨域泛化能力。实验表明,LaGoVAD在多个数据集上表现最优,尤其在动态异常定义场景下具有更强的适应性。
正文
视频异常检测(VAD)是智能监控、智慧交通和网络审核等领域的关键技术,但现有方法通常将异常视为静态不变的属性,难以适应开放世界中异常定义随场景、时间和用户需求变化的动态特性。中国传媒大学吴晓雨教授团队在ICLR 2026上发表论文《Language-guided Open-world Video Anomaly Detection under Weak Supervision》,提出了一种新的视频异常检测范式,即通过语言引导,将异常定义与视频内容联合建模,从而实现更灵活的异常检测。该模型LaGoVAD通过添加文本分支,允许用户用自然语言定义异常,并在训练过程中使用多种异常定义进行学习。为应对数据稀缺和标签粗粒度的问题,团队提出了两种正则化手段:困难负样本挖掘和语义向量检索,以提升样本质量与多样性。同时,构建了一个包含35K条高质量数据的预训练视频异常数据集,已开源至ModelScope平台。实验结果显示,LaGoVAD在7个不同数据集上均取得了最先进的性能,特别是在XD-Violence数据集上提升了20%。此外,该模型在动态异常定义评估中表现优异,超越了多种和免训练方法,展现出强大的泛化能力。文中还通过可视化结果展示了模型对动态定义的敏感性,例如对‘狗打翻垃圾桶’事件的异常检测能力。该研究为视频异常检测在开放世界中的应用提供了新的思路和技术支持。