牛，阿里的这款视觉语言深度研究智能体WebWatcher开源了！ | Notion

牛，阿里的这款视觉语言深度研究智能体WebWatcher开源了！

HLE-VL：13.6%（GPT-4o 9.8%） BrowseComp-VL：27%（GPT-4o的两倍） LiveVQA：58.7%

核心是，WebWatcher把视觉与文本信息结合进行跨模态推理，能操作工具，来完成复杂的深度研究任务

它可以使用Web图像/文本搜索、网页访问、代码解释器、OCR等多种工具，可以单个使用，也可以根据任务多工具协同使用

开源了两个版本，7B和32B

模型：https://modelscope.cn/search?search=WebWatcher