腾讯刚刚开源了其端到端的视频音频模型:HunyuanVideo-Foley,音效同步效果非常好

音效效果与画面动作、情绪基本同步,视觉语义对齐和时间对齐能力比较强

端到端TV2A框架,在10万小时的多模态数据集上训练,可以用于从自然景观到动画短片各种场景

输入视频+文字生成

可以用来做短视频批量自动配音,或者给AI的无声短片一键加音效

github:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley HF:https://huggingface.co/tencent/HunyuanVideo-Foley

image.png

image.png

image.png

482587335-d6e1b6fd-6980-4a68-8717-74298d064195 (1).mp4