哈佛研究警告：AI医生临床推理仍存缺陷，逾八成病例未能识别关键诊断

当地时间4月13日，哈佛医学院附属机构在《JAMA Network Open》发表的一项最新研究显示，大型语言模型（LLM）在面对复杂临床推理任务时表现堪忧。研究人员利用21个主流模型对50个极具挑战性的医学病例进行测试，结果发现，模型在“鉴别诊断”环节表现薄弱，平均有超过80%的病例未能将正确诊断列入初步名单。

研究指出，虽然AI在获得完整检查结果后的最终诊断准确率表现尚可，但在病例早期、信息尚未完全明朗的推理阶段，其纠错和排除干扰项的能力明显不足。即使是目前最先进的模型，也常因无法有效处理临床细微差别而误诊。