腾讯的一款音频生成工具:AudioGenie,生成效果听上去比较贴切自然,对上下文信息的理解能力较强

支持视频、文本、图像多模态输入,音效、语音、音乐以及混合的输出

就可以拿它来生成背景音乐、人物说话、环境声等等,而无需训练

具备自我纠错能力,可以自我检查并纠正生成的声效

暂时无代码,项目:https://audiogenie.github.io 论文:https://arxiv.org/pdf/2505.22053

image.png

音频2.mp4