阿里通义实验室智能计算团队推出新算法FIPO

4月7日，阿里通义实验室智能计算团队宣布推出新算法FIPO（Future-KL Influenced Policy Optimization），引入Future-KL机制，奖励关键Token，解决纯强化学习（Pure RL）训练中“推理长度停滞”难题。据该团队介绍，在32B规模的纯RL设定下，率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

广告等商务合作，请点击这里

未经正式授权严禁转载本文，侵权必究。

打开界面新闻APP，查看原文

打开界面新闻，查看更多专业报道

阿里通义实验室智能计算团队推出新算法FIPO

热门评论

热门推荐

阿里通义实验室智能计算团队推出新算法FIPO

相关推荐

热门评论

热门推荐