酷，阿里通义团队刚刚放出了一款基于视觉感知RAG框架：VRAG-RL，在Qwen2.5-VL-3B上性能提升了30%

酷，阿里通义团队刚刚放出了一款基于视觉感知RAG框架：VRAG-RL，在Qwen2.5-VL-3B上性能提升了30%

VRAG使用强化学习训练模型，使其具备多轮思考和推理能力，来逐步提高VML的理解能力和答案的准确性

在Qwen2.5-VL-7B上性能提升了20%，在Qwen2.5-VL-3B上性能提升了30%

其通过定义视觉感知动作空间，让模型从粗到细的逐步聚焦信息密集区域，精准提取关键视觉信息，提升VLM的检索、推理、理解视觉信息能力

同时具备多模态检索以及迭代推理能力，通过多轮交互逐步完善对视觉信息的理解，最终生成准确全面的答案