阿里刚刚开源了TTS：Fun-CosyVoice3 0.5B，zero-shot音色克隆，可本地部署

阿里刚刚开源了TTS：Fun-CosyVoice3 0.5B，zero-shot音色克隆，可本地部署

还开源了款ASR【Fun-ASR-Nano 0.8B】，Fun-ASR的轻量化版本，推理成本更低，可以本地及定制化微调

另外，Fun-CosyVoice3模型做了升级，首包延迟比之前降低了50%，WER降低了56.4%，复杂场景字符错误率降低了26%

支持9种通用语言、18种中文方言、9种情感控制，可以跨语种音色复刻，比如说，用一段普通话录音可生成粤语、日语、英语等

支持双向流式合成，“输入即发声”，这个适用于语音助手、直播配音、无障碍阅读等等实时场景

Fun-ASR也升级了，噪声场景下准确率到了93%，新增歌词与说唱识别能力，支持31种语言自由混说无需预先指定语种

覆盖7大方言和26种地方口音，流式识别模型的首字延迟降低到了160ms