哈佛研究;AI医生;临床推理缺陷;八成病例;关键诊断未识别

哈佛研究警告:AI医生临床推理仍存缺陷,逾八成病例未能识别关键诊断

当地时间4月13日,哈佛医学院附属机构在《JAMA Network Open》发表的一项最新研究显示,大型语言模型(LLM)在面对复杂临床推理任务时表现堪忧。研究人员利用21个主流模型对50个极具挑战性的医学病例进行测试,结果发现,模型在“鉴别诊断”环节表现薄弱,平均有超过80%的病例未能将正确诊断列入初步名单。

研究指出,虽然AI在获得完整检查结果后的最终诊断准确率表现尚可,但在病例早期、信息尚未完全明朗的推理阶段,其纠错和排除干扰项的能力明显不足。即使是目前最先进的模型,也常因无法有效处理临床细微差别而误诊。

    广告等商务合作,请点击这里

    未经正式授权严禁转载本文,侵权必究。

    打开界面新闻APP,查看原文
    界面新闻
    打开界面新闻,查看更多专业报道

    热门评论

    打开APP,查看全部评论,抢神评席位

    热门推荐

      下载界面APP 订阅更多品牌栏目
        界面新闻
        界面新闻
        只服务于独立思考的人群
        打开