智谱刚刚开源了最新一代通用视觉模型:GLM-4.1V-Thinking

GLM-4.1V-Thinking在GLM-4V架构基础上引入了思维链推理机制

支持图像、视频、文档多模态输入的通用推理模型,擅长复杂认知任务

GLM-4.1V-9B-Thinking在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28项评测中,23项达成10B级模型最佳成绩,其中18项持平或超过Qwen-2.5-VL 72B

补足推理能力后的GLM-4.1V-Thinking可解决长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent以及代码生成等千行百业的场景问题

Github: https://github.com/THUDM/GLM-4.1V-Thinking

Hugging Face: https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d

ModelScope: https://modelscope.cn/collections/GLM-41V-35d24b6def9f49

image.png

4873_1751442640(原视频).mp4

4872_1751442636(原视频).mp4

4871_1751442630(原视频).mp4