谷歌发布了其最新的多功能视觉语言模型系列:PaliGemma 2 Mix,能处理复杂视觉语言任务,支持开放式提示词,能理解文档内容,支持分割检测操作
有三个型号,3B、10B、28B
支持视觉问答、图像描述、图像引用通用视觉语言任务;能做图表理解、信息图表问答、图解分析等文档理解任务;支持OCR及物体检测和图像分割
模型地址:https://huggingface.co/collections/google/paligemma-2-mix-67ac6a251aaf3ee73679dcc4
nKi1wa2f2lHtln4P.mp4