牛,Soul AI Lab开源了首个14B实时数字人模型:SoulX-FlashTalk,首帧延迟0.87秒,连续输出32 FPS
0.87秒+32 FPS的实时吞吐量,也就是说等待时间几乎无察觉,生成动画流畅无卡顿感
从效果看唇形同步还算相对精准,手势头部动作比较自然,肢体动作目前主要集中在头部和上半身的手势
支持超长视频稳定生成
其采用双向流式蒸馏保留片段内双向注意力,配合多步回顾式自纠错机制,来保持长时生成稳定不崩帧
搞直播/播客、视频会议、虚拟客服、多语种等场景的可以用起来试试
github:https://github.com/Soul-AILab/SoulX-FlashTalk

536126414-de649e5f-b09a-408d-9bff-96574326285c.mp4