公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

DeepSeek在临床诊疗方面的应用与ChatGPT效果相当

Administrator
发布于 2025-06-30 / 6 阅读
0
0

2025年4月23日,Nature子刊《Nature Medicine》(医学一区,IF=58.7)连发两篇外国学者对DeepSeek大型语言模型在临床应用的基准评价文章!

一起看看国产DeepSeek表现如何?

DeepSeek在临床决策中的基准评价

大型语言模型(LLM)正在日益改变医疗应用。

为了证明DeepSeek-V3和DeepSeek-R1的临床实用性,研究者将它们在临床决策支持任务上的表现与专有LLM(包括GPT-4o和Gemini-2.0 Flash Thinking Experimental)进行了基准测试。

使用125例具有足够统计效力的患者病例,涵盖了广泛的常见和罕见疾病,研究者发现DeepSeek模型的表现同样良好,在某些情况下甚至优于专有LLM。

对于第一个临床决策任务-诊断,Gem2FTE的表现明显优于DeepSeek-R1 和GPT-4o。DeepSeek-R1与表现最好的模型GPT-4o相当。

对于第二次临床决策任务-治疗,GPT-4o和DeepSeek-R1均表现优于Gem2FTE。同样,GPT-4o与DeepSeek-R1没有显著差异。

与早期的基准模型GPT-4和GPT-3.5相比,GPT-4o和DeepSeek-R1都可以观察到更好的性能,但是Gem2FTE没有。

DeepSeek在医疗任务和临床推理方面的比较基准测试

DeepSeek是一种新推出的大型语言模型(LLM),旨在增强推理能力,但其医疗领域的能力尚未得到评估。

本研究评估了三个LLM(DeepSeek-R1,ChatGPT-o1和 Llama 3.1-405B)执行四种不同医疗任务的能力:

  • 回答美国医疗许可考试(USMLE)中的问题;

  • 基于文本的诊断和管理案例的解释和推理;

  • 根据RECIST 1.1标准提供肿瘤分类;

  • 以及提供跨多种模式的诊断成像报告摘要。

在USMLE测试中,DeepSeek-R1(准确率=0.92,粉)的性能略逊于ChatGPT-o1(准确率=0.95,绿),但优于 Llama 3.1-405B(准确率=0.83,黄)。

对于基于文本的病例挑战,DeepSeek-R1的表现与ChatGPT-o1相似。分别使用新英格兰医学杂志(NEJM)和Medicilline数据库。

对于RECIST分类,DeepSeek-R1的表现也与ChatGPT-o1类似(0.73 vs 0.81;p = 0.10)。

DeepSeek提供的诊断推理步骤被认为比ChatGPT和Llama 3.1-405B提供的更准确

然而,DeepSeek-R1提供的汇总成像报告的整体质量低于ChatGPT-o1(5分Likert评分:4.5 vs 4.8)。

这项研究强调了DeepSeek-R1 LLM在医疗应用方面的潜力,但也强调了需要改进的领域。

两项研究说明,国产DeepSeek展现了作为开源医疗AI基座的潜力:其诊断推理能力已达临床可用水平。尽管在知识覆盖深度和生成任务精细化程度上仍需迭代,但通过本地数据的持续微调,有望发展成为安全可控的临床决策支持系统。


评论