2025年4月23日,Nature子刊《Nature Medicine》(医学一区,IF=58.7)连发两篇外国学者对DeepSeek大型语言模型在临床应用的基准评价文章!
一起看看国产DeepSeek表现如何?
DeepSeek在临床决策中的基准评价
大型语言模型(LLM)正在日益改变医疗应用。
为了证明DeepSeek-V3和DeepSeek-R1的临床实用性,研究者将它们在临床决策支持任务上的表现与专有LLM(包括GPT-4o和Gemini-2.0 Flash Thinking Experimental)进行了基准测试。
使用125例具有足够统计效力的患者病例,涵盖了广泛的常见和罕见疾病,研究者发现DeepSeek模型的表现同样良好,在某些情况下甚至优于专有LLM。
对于第一个临床决策任务-诊断,Gem2FTE的表现明显优于DeepSeek-R1 和GPT-4o。DeepSeek-R1与表现最好的模型GPT-4o相当。
对于第二次临床决策任务-治疗,GPT-4o和DeepSeek-R1均表现优于Gem2FTE。同样,GPT-4o与DeepSeek-R1没有显著差异。
与早期的基准模型GPT-4和GPT-3.5相比,GPT-4o和DeepSeek-R1都可以观察到更好的性能,但是Gem2FTE没有。
DeepSeek在医疗任务和临床推理方面的比较基准测试
DeepSeek是一种新推出的大型语言模型(LLM),旨在增强推理能力,但其医疗领域的能力尚未得到评估。
本研究评估了三个LLM(DeepSeek-R1,ChatGPT-o1和 Llama 3.1-405B)执行四种不同医疗任务的能力:
回答美国医疗许可考试(USMLE)中的问题;
基于文本的诊断和管理案例的解释和推理;
根据RECIST 1.1标准提供肿瘤分类;
以及提供跨多种模式的诊断成像报告摘要。
在USMLE测试中,DeepSeek-R1(准确率=0.92,粉)的性能略逊于ChatGPT-o1(准确率=0.95,绿),但优于 Llama 3.1-405B(准确率=0.83,黄)。
对于基于文本的病例挑战,DeepSeek-R1的表现与ChatGPT-o1相似。分别使用新英格兰医学杂志(NEJM)和Medicilline数据库。
对于RECIST分类,DeepSeek-R1的表现也与ChatGPT-o1类似(0.73 vs 0.81;p = 0.10)。
DeepSeek提供的诊断推理步骤被认为比ChatGPT和Llama 3.1-405B提供的更准确。
然而,DeepSeek-R1提供的汇总成像报告的整体质量低于ChatGPT-o1(5分Likert评分:4.5 vs 4.8)。
这项研究强调了DeepSeek-R1 LLM在医疗应用方面的潜力,但也强调了需要改进的领域。
两项研究说明,国产DeepSeek展现了作为开源医疗AI基座的潜力:其诊断推理能力已达临床可用水平。尽管在知识覆盖深度和生成任务精细化程度上仍需迭代,但通过本地数据的持续微调,有望发展成为安全可控的临床决策支持系统。