近日,通义大模型团队推出CoGenAV,用音画同步思路革新语音识别技术,突破噪声干扰瓶颈。它不同于传统方法,通过挖掘音频-视觉-文本的时序对齐特性,打造更 robust 的语音表征框架,为语音识别和重建任务带来显著提升。