微软刚刚最新放出来一款轻量级实时TTS:VibeVoice-Realtime-0.5B,主打低延迟、流式输入、长音频生成
首包音频延迟约300毫秒,WER 2%、说话人相似度0.69
文本可以逐段灌入,无需等全部答案生成,文本还在往外蹦,声音就已经开口说了
交错窗口设计,一边读新文本,一边用扩散模型续写声学潜码,实现边说边生成
可连续合成约10分钟语音 这个版本仅支持单说话人、英语
github:https://github.com/microsoft/VibeVoice/blob/main/docs/vibevoice-realtime-0.5b.md HF:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B
