MiniMax;开源;Coding Agent;评测集

MiniMax宣布开源面向Coding Agent的新评测集

1月14日,MiniMax宣布开源面向Coding Agent的新评测集OctoCodingBench。MiniMax表示,基于该评测集,其针对现有的开源闭源模型进行了广泛的评估,并发现一些很有启发性的实验结果:所有模型的Check-level 准确率(CSR)可以达到80%+,但Instance-level成功率(ISR)只有10%-30%;绝大模型模型的指令遵循能力会随着轮次的变多逐渐下降;现阶段模型表现普遍未能达到生产级要求,过程合规仍是盲区;开源模型正在快速追赶闭源模型。

    广告等商务合作,请点击这里

    未经正式授权严禁转载本文,侵权必究。

    打开界面新闻APP,查看原文
    界面新闻
    打开界面新闻,查看更多专业报道

    热门评论

    打开APP,查看全部评论,抢神评席位

    热门推荐

      下载界面APP 订阅更多品牌栏目
        界面新闻
        界面新闻
        只服务于独立思考的人群
        打开