Meta AI等开源了一个专注于长视频语言理解的多模态模型:LongVU,它通过时空自适应压缩技术来处理视频数据,擅长处理和理解长视频
特点: 1、能看懂长视频,支持细粒度的视频内容理解 2、可以回答关于视频内容的各种问题,记忆力特别好,能记住视频中的细节 3、能处理各类场景,从简单的物体运动到复杂的人物互动都可以 4、在有限上下文长度内,能有效处理大量视频帧,减少计算资源的消耗
github:https://github.com/Vision-CAIR/LongVU Demo:https://huggingface.co/spaces/Vision-CAIR/LongVU