酷,阿里通义团队刚刚放出了一款基于视觉感知RAG框架:VRAG-RL,在Qwen2.5-VL-3B上性能提升了30%

VRAG使用强化学习训练模型,使其具备多轮思考和推理能力,来逐步提高VML的理解能力和答案的准确性

在Qwen2.5-VL-7B上性能提升了20%,在Qwen2.5-VL-3B上性能提升了30%

其通过定义视觉感知动作空间,让模型从粗到细的逐步聚焦信息密集区域,精准提取关键视觉信息,提升VLM的检索、推理、理解视觉信息能力

同时具备多模态检索以及迭代推理能力,通过多轮交互逐步完善对视觉信息的理解,最终生成准确全面的答案

github:https://github.com/Alibaba-NLP/VRAG

gif1.gif

gif2.GIF

gif3.GIF

449198725-6d9bd7af-4ad9-4804-910b-2b2c5b2e0c35 (1).mp4