微软刚刚最新放出来一款轻量级实时TTS：VibeVoice-Realtime-0.5B，主打低延迟、流式输入、长音频生成 | Notion

微软刚刚最新放出来一款轻量级实时TTS：VibeVoice-Realtime-0.5B，主打低延迟、流式输入、长音频生成

首包音频延迟约300毫秒，WER 2%、说话人相似度0.69

文本可以逐段灌入，无需等全部答案生成，文本还在往外蹦，声音就已经开口说了

交错窗口设计，一边读新文本，一边用扩散模型续写声学潜码，实现边说边生成

可连续合成约10分钟语音这个版本仅支持单说话人、英语

github：https://github.com/microsoft/VibeVoice/blob/main/docs/vibevoice-realtime-0.5b.md HF：https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B

522449535-0901d274-f6ae-46ef-a0fd-3c4fba4f76dc.mp4