酷,中山大学、美团等的项目,音频驱动的多人对话视频生成工具:MultiTalk,从效果看人物唇形同步的一致性非常高

给它多条音频、一张参考图像、以及一段文字提示,它可以生成一段包含多人对话,或唱歌的互动视频

支持互动控制、卡通风格

论文:https://arxiv.org/pdf/2505.22647 github:https://github.com/MeiGen-AI/MultiTalk 代码暂时还未出

image.png

449129664-e55952e6-e1b2-44a5-9887-a89307a378da.mp4

449129231-554bfbe7-0090-492c-94be-329f5e39e175.mp4

449129227-f0396c19-d459-42aa-9d78-34fdea10de18.mp4