英伟达发的一款语音识别模型:Parakeet TDT 0.6B V2,核心能力是它准确的词级时间戳预测,还能自动加上标点符号和大小写

6亿参数,可以精确预测单词的时间戳,主要用于英语识别 可以一次性处理24分钟的长录音,不用分段处理 在口语数字和歌曲歌词转录上表现也比较好

用于语音助手、转录、字幕生成以及语音分析平台都可以

模型:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

image.png