阿里放出了一款端到端语音识别模型:FunAudio-ASR,优化了“幻觉”、“串语种”等问题

其设计了一个轻量级的前端Context增强模块,通过CTC解码器快速生成第一遍转写文本,将该结果作为上下文信息输入LLM,以辅助模型更准确的理解音频内容

CTC结构轻量且非自回归,这个增强模块几乎不增加额外的推理耗时,但幻觉率能从78.5%降到了10.7%

还有一个FunAudio-ASR-nano轻量化版本,推理成本理低,适合对资源敏感的部署环境

这个ASR目前没开源,有API

阿里云百炼平台:https://help.aliyun.com/zh/model-studio/recording-file-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_1.f43e7432ytYkAa&scm=20140722.H_2880903._.OR_help-T_cn~zh-V_1

技术报告:https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf

魔搭社区体验:https://modelscope.cn/studios/iic/FunAudio-ASR

image.png