阿里放出了一款端到端语音识别模型：FunAudio-ASR，优化了“幻觉”、“串语种”等问题

阿里放出了一款端到端语音识别模型：FunAudio-ASR，优化了“幻觉”、“串语种”等问题

其设计了一个轻量级的前端Context增强模块，通过CTC解码器快速生成第一遍转写文本，将该结果作为上下文信息输入LLM，以辅助模型更准确的理解音频内容

CTC结构轻量且非自回归，这个增强模块几乎不增加额外的推理耗时，但幻觉率能从78.5%降到了10.7%