微软刚刚最新放出来一款轻量级实时TTS:VibeVoice-Realtime-0.5B,主打低延迟、流式输入、长音频生成

首包音频延迟约300毫秒,WER 2%、说话人相似度0.69

文本可以逐段灌入,无需等全部答案生成,文本还在往外蹦,声音就已经开口说了

交错窗口设计,一边读新文本,一边用扩散模型续写声学潜码,实现边说边生成

可连续合成约10分钟语音 这个版本仅支持单说话人、英语

github:https://github.com/microsoft/VibeVoice/blob/main/docs/vibevoice-realtime-0.5b.md HF:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B

image.png

522449535-0901d274-f6ae-46ef-a0fd-3c4fba4f76dc.mp4