腾讯刚刚开源了其端到端的视频音频模型:HunyuanVideo-Foley,音效同步效果非常好
音效效果与画面动作、情绪基本同步,视觉语义对齐和时间对齐能力比较强
端到端TV2A框架,在10万小时的多模态数据集上训练,可以用于从自然景观到动画短片各种场景
输入视频+文字生成
可以用来做短视频批量自动配音,或者给AI的无声短片一键加音效
github:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley HF:https://huggingface.co/tencent/HunyuanVideo-Foley


