酷,AI音效师,阿里通义实验室刚刚开源了其首个音频生成模型:ThinkSound,声画同步效果看起来非常好
ThinkSound把CoT用到了音频生成上,让AI学会一步步想清楚画面事件与声音间的关系,从而实现音视频高保真、强同步
支持视频、文本、音频或其组合等任意模态生成音频
统一模型架构,可生成、编辑、交互式工作流
github:https://github.com/FunAudioLLM/ThinkSound hf:https://huggingface.co/spaces/FunAudioLLM/ThinkSound