最近,斯坦福大学发布了一项针对临床医疗AI模型的全面评测,DeepSeek R1以66%的胜率和0.75的宏观平均分,在九个前沿大模型中拔得头筹!这次评测的独特之处在于,它不仅考察了传统的医疗执照考试题,还深入到临床医生的日常场景,提供了更贴近实际需求的评估。
评测团队打造了一个名为MedHELM的综合框架,包含35个基准测试,覆盖22个医疗任务子类别。该框架经过29位来自14个医学专科的执业医生验证,确保其科学性和实用性。结果显示,DeepSeek R1表现优异,紧随其后的是o3-mini和Claude3.7Sonnet。
具体来看,DeepSeek R1在各项测试中表现出色,胜率标准差仅为0.10,展现了极高的稳定性。而o3-mini则在临床决策支持领域表现亮眼,以64%的胜率和0.77的最高宏观平均分位列第二。Claude3.5和3.7Sonnet分别以63%和64%的胜率紧随其后。
值得一提的是,评测采用了创新的“大语言模型评审团”(LLM-jury)方法进行结果评估,其评分与临床医生高度一致,证明了这一方法的有效性。此外,研究团队还进行了成本效益分析,发现推理模型虽然性能强大但成本较高,而非推理模型则更具性价比,适合不同用户的需求。
这项评测不仅为医疗AI的发展提供了重要参考,也为未来临床实践带来了更多可能性和灵活性。
📝留言定制 (0)