智谱开源了用于GLM-4.5的强化学习训练框架:slime

两个核心功能: 1、结合了Megatron与SGLang,即可支持各种模式的高效训练

2、通过自定义数据生成接口以及 server based engine,可支持任意训练数据生成流程

支持包括稠密模型,比如GLM-4-9B、Qwen3-4B;混合专家模型,比如 GLM-4.5、Qwen3-30B-A3B、DeepSeek-R1等多种模型

库里提供了包括多轮对话、工具调用、监督微调等多种场景的应用示例,可以快速上手

github:https://github.com/THUDM/slime

image.png