刚刚，智谱直播开源其最新视觉模型：GLM-4.5V，多模态，支持图像、视频输入

刚刚，智谱直播开源其最新视觉模型：GLM-4.5V，多模态，支持图像、视频输入

GLM-4.5V 基于智谱 AI的下一代旗舰文本基础模型 GLM-4.5-Air底座（106B 参数，12B 有源），延续了 GLM-4.1V-Thinking 的技术路线，在 42 个公开的视觉语言基准测试中取得了同规模模型中的 SOTA 性能，涵盖了图像、视频和文档理解等常见任务，以及 GUI 代理操作

实现能力： 1、图像推理（场景理解、复杂多图像分析、空间识别） 2、视频理解（长视频分割与事件识别） 3、GUI 任务（屏幕阅读、图标识别、桌面操作协助） 4、复杂图表及长文档解析（研究报告分析、信息提取） 5、精确的视觉元素定位

价格： API 输入2元/输出6元（百万tokens）速度：60-80 tokens/s

预训练→SFT→RL三段训练

SFT 引入显式COT
强化学习阶段阶段结合 RLVR & RLHF
优化了 STEM、多模态、Agent 任务

GitHub：https://github.com/zai-org/GLM-V 魔搭社区：https://modelscope.cn/collections/GLM-45V 体验链接：http://chat.z.ai （选择glm4.5v模型即可使用）