百度刚刚放出了:ERNIE-4.5-VL-28B-A3B-Thinking,主打“看图思考”,会用图像缩放、搜索等工具自由放大和缩小图像

这就提升了模型处理细粒度细节和长尾视觉知识能力,可以更全面理解复杂的视觉场景

在VLMs Are Blind上超GPT-5-High、GEMINI-2.5-Pro

可以用来做多步推理、图表分析、因果推断、STEM拍照解题、视频时序定位等

HF:https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

image.png