最近,蚂蚁技术团队开源了一款超棒的轻量级推理模型——Ring-lite!这款模型基于此前发布的Ling-lite-1.5,采用MoE架构,总参数量达16.8B,但激活参数仅为2.75B。通过创新的C3PO强化学习训练方法,Ring-lite在多项推理榜单上表现出色,比如AIME24/25、LiveCodeBench、CodeForce和GPQA-diamond等,甚至媲美激活参数规模三倍于己的10B以下Dense模型。

技术层面,Ring-lite团队做出了不少亮点创新。他们提出了C3PO强化学习训练法,巧妙解决了RL训练中回复长度波动带来的优化难题,大幅提升了训练稳定性和吞吐表现。此外,团队还深入研究了Long-CoT SFT与RL的最佳训练比例,并引入entropy loss来平衡训练效果和样本效率,进一步增强了模型性能。

值得一提的是,Ring-lite成功攻克了多领域数据联合训练的挑战,在数学、代码和科学三大领域实现了协同增益。尤其是在高考数学和物理题测试中,Ring-lite展现了惊人的实力:它在全国一卷数学考试中能拿到130分左右的好成绩!

更令人兴奋的是,Ring-lite不仅开源了模型权重和训练代码,还将逐步公开所有训练数据集、超参配置以及实验记录,堪称轻量级MoE推理模型首次实现全链路透明化。这对研究者来说无疑是一份宝贵的资源。

GitHub: https://github.com/inclusionAI/Ring

Hugging Face: https://huggingface.co/inclusionAI/Ring-lite

ModelScope: https://modelscope.cn/models/inclusionAI/Ring-lite