腾讯的一款音频生成工具:AudioGenie,生成效果听上去比较贴切自然,对上下文信息的理解能力较强
支持视频、文本、图像多模态输入,音效、语音、音乐以及混合的输出
就可以拿它来生成背景音乐、人物说话、环境声等等,而无需训练
具备自我纠错能力,可以自我检查并纠正生成的声效
暂时无代码,项目:https://audiogenie.github.io 论文:https://arxiv.org/pdf/2505.22053
音频2.mp4