酷,AI音效师,阿里通义实验室刚刚开源了其首个音频生成模型:ThinkSound,声画同步效果看起来非常好

ThinkSound把CoT用到了音频生成上,让AI学会一步步想清楚画面事件与声音间的关系,从而实现音视频高保真、强同步

支持视频、文本、音频或其组合等任意模态生成音频

统一模型架构,可生成、编辑、交互式工作流

github:https://github.com/FunAudioLLM/ThinkSound hf:https://huggingface.co/spaces/FunAudioLLM/ThinkSound

image.png

veo3.mp4

sora.mp4

moviegen.mp4