智谱刚刚开源了最新一代通用视觉模型:GLM-4.1V-Thinking
GLM-4.1V-Thinking在GLM-4V架构基础上引入了思维链推理机制
支持图像、视频、文档多模态输入的通用推理模型,擅长复杂认知任务
GLM-4.1V-9B-Thinking在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28项评测中,23项达成10B级模型最佳成绩,其中18项持平或超过Qwen-2.5-VL 72B
补足推理能力后的GLM-4.1V-Thinking可解决长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent以及代码生成等千行百业的场景问题
Github: https://github.com/THUDM/GLM-4.1V-Thinking
Hugging Face: https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
ModelScope: https://modelscope.cn/collections/GLM-41V-35d24b6def9f49