牛，Soul AI Lab开源了首个14B实时数字人模型：SoulX-FlashTalk，首帧延迟0.87秒，连续输出32 FPS

牛，Soul AI Lab开源了首个14B实时数字人模型：SoulX-FlashTalk，首帧延迟0.87秒，连续输出32 FPS

0.87秒+32 FPS的实时吞吐量，也就是说等待时间几乎无察觉，生成动画流畅无卡顿感

从效果看唇形同步还算相对精准，手势头部动作比较自然，肢体动作目前主要集中在头部和上半身的手势

支持超长视频稳定生成

其采用双向流式蒸馏保留片段内双向注意力，配合多步回顾式自纠错机制，来保持长时生成稳定不崩帧

搞直播/播客、视频会议、虚拟客服、多语种等场景的可以用起来试试

github：https://github.com/Soul-AILab/SoulX-FlashTalk

536126414-de649e5f-b09a-408d-9bff-96574326285c.mp4

536123542-cee5c716-3267-42d9-86c0-93de8e9ed7fa.mp4

teaser_2_n_0129.mp4

teaser_1_n_0129.mp4