牛,阿里的这款视觉语言深度研究智能体WebWatcher开源了!
HLE-VL:13.6%(GPT-4o 9.8%) BrowseComp-VL:27%(GPT-4o的两倍) LiveVQA:58.7%
核心是,WebWatcher把视觉与文本信息结合进行跨模态推理,能操作工具,来完成复杂的深度研究任务
它可以使用Web图像/文本搜索、网页访问、代码解释器、OCR等多种工具,可以单个使用,也可以根据任务多工具协同使用
开源了两个版本,7B和32B
模型:https://modelscope.cn/search?search=WebWatcher