李飞飞团队最新s1模型,基于阿里云Qwen基模监督微调而成

近日,李飞飞团队提出了一种模型训练新方法引发热议,他们以阿里通义千问Qwen2.5-32B-Instruct开源模型为底座,在16块H100 GPU上监督微调26分钟,训练出新模型s1-32B, 取得了与OpenAI的o1和DeepSeek的R1等尖端推理模型数学及编码能力相当的效果,甚至在竞赛数学问题上的表现比 o1-preview 高出27%。

更早之前,DeepSeek官方曾透露,将DeepSeek-R1的推理能力蒸馏6个模型开源给社区,其中4个模型来自Qwen:基于Qwen-32B蒸馏的模型,在多项能力上实现了对标OpenAI o1-mini的效果。

    广告等商务合作,请点击这里

    未经正式授权严禁转载本文,侵权必究。

    打开界面新闻APP,查看原文
    界面新闻
    打开界面新闻,查看更多专业报道

    热门评论

    打开APP,查看全部评论,抢神评席位

    热门推荐

      下载界面APP 订阅更多品牌栏目
        界面新闻
        界面新闻
        只服务于独立思考的人群
        打开