刚刚,智谱直播开源其最新视觉模型:GLM-4.5V,多模态,支持图像、视频输入

GLM-4.5V 基于智谱 AI的下一代旗舰文本基础模型 GLM-4.5-Air底座(106B 参数,12B 有源),延续了 GLM-4.1V-Thinking 的技术路线,在 42 个公开的视觉语言基准测试中取得了同规模模型中的 SOTA 性能,涵盖了图像、视频和文档理解等常见任务,以及 GUI 代理操作

实现能力: 1、图像推理 (场景理解、复杂多图像分析、空间识别) 2、视频理解 (长视频分割与事件识别) 3、GUI 任务 (屏幕阅读、图标识别、桌面操作协助) 4、复杂图表及长文档解析 (研究报告分析、信息提取) 5、精确的视觉元素定位

价格: API 输入2元/输出6元(百万tokens) 速度:60-80 tokens/s

预训练→SFT→RL三段训练

GitHub:https://github.com/zai-org/GLM-V 魔搭社区:https://modelscope.cn/collections/GLM-45V 体验链接:http://chat.z.ai (选择glm4.5v模型即可使用)

image.png