阿里刚刚开源了TTS:Fun-CosyVoice3 0.5B,zero-shot音色克隆,可本地部署
还开源了款ASR【Fun-ASR-Nano 0.8B】,Fun-ASR的轻量化版本,推理成本更低,可以本地及定制化微调
另外,Fun-CosyVoice3模型做了升级,首包延迟比之前降低了50%,WER降低了56.4%,复杂场景字符错误率降低了26%
支持9种通用语言、18种中文方言、9种情感控制,可以跨语种音色复刻,比如说,用一段普通话录音可生成粤语、日语、英语等
支持双向流式合成,“输入即发声”,这个适用于语音助手、直播配音、无障碍阅读等等实时场景
Fun-ASR也升级了,噪声场景下准确率到了93%,新增歌词与说唱识别能力,支持31种语言自由混说无需预先指定语种
覆盖7大方言和26种地方口音,流式识别模型的首字延迟降低到了160ms
TTS: HF:https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512 github:https://github.com/FunAudioLLM/CosyVoice
ASR: github:https://github.com/FunAudioLLM/Fun-ASR HF:https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512

