MiniMax宣布开源面向Coding Agent的新评测集

1月14日，MiniMax宣布开源面向Coding Agent的新评测集OctoCodingBench。MiniMax表示，基于该评测集，其针对现有的开源闭源模型进行了广泛的评估，并发现一些很有启发性的实验结果：所有模型的Check-level 准确率（CSR）可以达到80%+，但Instance-level成功率（ISR）只有10%-30%；绝大模型模型的指令遵循能力会随着轮次的变多逐渐下降；现阶段模型表现普遍未能达到生产级要求，过程合规仍是盲区；开源模型正在快速追赶闭源模型。

广告等商务合作，请点击这里

未经正式授权严禁转载本文，侵权必究。

打开界面新闻APP，查看原文

打开界面新闻，查看更多专业报道

MiniMax宣布开源面向Coding Agent的新评测集

热门评论

热门推荐

MiniMax宣布开源面向Coding Agent的新评测集

相关推荐

热门评论

热门推荐