视听分离性能飙升6倍!清华Dolphin模型:6M参数刷新SOTA
type
status
date
slug
summary
tags
category
icon
password
网址

引言:解决“鸡尾酒会效应”的AI新突破
在嘈杂的聚会中,人类能够轻而易举地盯着说话人的口型,从背景噪音中提取出对方的声音,这就是著名的“鸡尾酒会效应”。在人工智能领域,视听语音分离(Audio-Visual Speech Separation, AVSS)技术正是为了模拟这一能力。然而,长久以来,该领域一直处于“高性能必然高能耗”的尴尬境地。
近日,清华大学计算机系胡晓林副教授团队在 ICLR'26 上发表了突破性成果:Dolphin模型。作为首个将参数量压缩至6M级别,同时在推理速度上实现6倍提升的高性能模型,Dolphin不仅刷新了多项SOTA(State-of-the-Art)记录,更通过创新的物理启发机制,为端侧AI应用开辟了新路径。想要了解更多前沿AI资讯,欢迎访问 https://aigc.bar。
传统视听分离模型的“三大痛点”
在Dolphin模型问世之前,主流的AVSS方法在实际应用中面临着难以逾越的障碍:
- 视觉编码器的路径依赖:为了获得精准的语义对齐,现有模型通常背负着沉重的预训练视频编码器,导致计算量巨大,难以在手机或智能眼镜等边缘设备上运行。
- 迭代推理的高延迟:许多轻量化模型为了弥补性能损失,不得不采用多次循环迭代的策略。这种“以时间换精度”的做法导致推理延迟极高,无法满足实时交互的需求。
- 全局与局部的建模失衡:在单次计算中,模型很难同时兼顾长时序的语境逻辑和短时序的语音细节,容易导致分离出的声音出现失真或伪影。
DP-LipCoder:离散化视觉语义的革新
Dolphin模型的核心创新之一是提出了 DP-LipCoder(双路径离散视觉编码器)。研发团队意识到,视觉信息并不需要全量保留,关键在于提取与语音高度对齐的语义。
DP-LipCoder 采用了基于矢量量化(Vector Quantization, VQ)的技术,将连续的视频帧映射为离散的 Token 序列。通过引入预训练模型的蒸馏技术,该编码器能够以极低的计算成本捕获深层语义信息。这种设计不仅解决了视觉分支冗余的问题,还显著增强了模型在复杂背景下的抗噪能力,是人工智能在特征表征领域的又一重要尝试。
GLA模块:受物理学启发的热扩散注意力
为了摒弃低效的迭代机制,Dolphin 引入了全局-局部注意力(GLA)模块,确保在单次前向传播中即可完成高质量分离:
- 全局注意力(GA):通过粗粒度的自注意力机制,低成本地捕捉数秒内的长时序语境。
- 局部注意力(LA):这是该模型最令人惊艳的部分。团队创造性地引入了基于物理学热扩散方程的“热扩散注意力(Heat Diffusion Attention, HDA)”。
利用热扩散过程的平滑特性,HDA 能够自适应地对特征进行多尺度滤波。这种方法能在有效去除高频噪声的同时,精准保留语音的瞬态细节,使分离出的声音听感更加自然。对于关注大模型底层算法创新的读者来说,这种跨学科的创新思路极具启发性。
数据见证:6M参数量下的“统治级”表现
在 LRS2、LRS3 和 VoxCeleb2 等权威基准数据集上,Dolphin 展现了全方位的领先优势:
- 分离质量:在 LRS2 数据集上,其 SI-SNRi 达到 16.8 dB,远超之前的 SOTA 模型。
- 极致轻量化:计入视觉编码器后,总参数量仅为 6.22M,而同类高性能模型通常在 15M 以上。
- 推理提速:在 GPU 推理测试中,Dolphin 处理 1 秒音频仅需约 33 毫秒,速度比现有主流模型快了 6倍以上。
- 主观听感优越:在 MOS 测试中,Dolphin 获得了 3.86 的高分,证明其分离出的语音在清晰度和自然度上已接近真实人声。
结论:开启端侧视听大模型的新纪元
Dolphin 模型的出现,打破了视听分离领域“参数量换性能”的固有思维。它证明了通过巧妙的架构设计和物理先验的引入,轻量化模型完全可以超越笨重的“大模型”。
这一技术突破为智能助听器、实时会议系统、智能手机通话降噪以及增强现实(AR)设备提供了切实可行的技术路径。随着 AGI 进程的加速,像 Dolphin 这样兼顾性能与效率的模型将成为未来端侧 AI 的核心。
获取更多关于 OpenAI、ChatGPT 以及全球最新 AI新闻 和 提示词 技巧,请持续关注 https://aigc.bar,带你深度洞察人工智能的未来。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)