谷歌发布了其最新的多功能视觉语言模型系列：PaliGemma 2 Mix，能处理复杂视觉语言任务，支持开放式提示词，能理解文档内容，支持分割检测操作

谷歌发布了其最新的多功能视觉语言模型系列：PaliGemma 2 Mix，能处理复杂视觉语言任务，支持开放式提示词，能理解文档内容，支持分割检测操作

有三个型号，3B、10B、28B

支持视觉问答、图像描述、图像引用通用视觉语言任务；能做图表理解、信息图表问答、图解分析等文档理解任务；支持OCR及物体检测和图像分割