昆仑万维:天工大模型在权威推理榜单Benchmark GSM8K,测试中大幅领先GPT-3.5

昆仑万维10月19日在互动平台表示,天工AI助手的手机APP已开启内测。日前,昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型测评中,综合得分排名第一;在权威推理榜单Benchmark GSM8K 测试中,天工大模型以80%的正确率脱颖而出,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%),推理能力达到全球领先水平;此外,在基于SuperCLUE综合性测评基准,包括多轮开放式问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT的测试中,天工大模型文理兼顾,跻身中文闭源模型第一梯队。

    广告等商务合作,请点击这里

    未经正式授权严禁转载本文,侵权必究。

    打开界面新闻APP,查看原文
    界面新闻
    打开界面新闻,查看更多专业报道

    热门评论

    打开APP,查看全部评论,抢神评席位

    热门推荐

      下载界面APP 订阅更多品牌栏目
        界面新闻
        界面新闻
        只服务于独立思考的人群
        打开