公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

DeepSeek在临床诊疗方面的应用与ChatGPT效果相当

Administrator
发布于 2025-06-30 / 56 阅读
0
0

2025年4月23日,Nature子刊《Nature Medicine》(医学一区,IF=58.7)连发两篇外国学者对DeepSeek大型语言模型在临床应用的基准评价文章!

一起看看国产DeepSeek表现如何?

DeepSeek在临床决策中的基准评价

大型语言模型(LLM)正在日益改变医疗应用。

为了证明DeepSeek-V3和DeepSeek-R1的临床实用性,研究者将它们在临床决策支持任务上的表现与专有LLM(包括GPT-4o和Gemini-2.0 Flash Thinking Experimental)进行了基准测试。

使用125例具有足够统计效力的患者病例,涵盖了广泛的常见和罕见疾病,研究者发现DeepSeek模型的表现同样良好,在某些情况下甚至优于专有LLM。

对于第一个临床决策任务-诊断,Gem2FTE的表现明显优于DeepSeek-R1 和GPT-4o。DeepSeek-R1与表现最好的模型GPT-4o相当。

对于第二次临床决策任务-治疗,GPT-4o和DeepSeek-R1均表现优于Gem2FTE。同样,GPT-4o与DeepSeek-R1没有显著差异。

与早期的基准模型GPT-4和GPT-3.5相比,GPT-4o和DeepSeek-R1都可以观察到更好的性能,但是Gem2FTE没有。

DeepSeek在医疗任务和临床推理方面的比较基准测试

DeepSeek是一种新推出的大型语言模型(LLM),旨在增强推理能力,但其医疗领域的能力尚未得到评估。

本研究评估了三个LLM(DeepSeek-R1,ChatGPT-o1和 Llama 3.1-405B)执行四种不同医疗任务的能力:

  • 回答美国医疗许可考试(USMLE)中的问题;

  • 基于文本的诊断和管理案例的解释和推理;

  • 根据RECIST 1.1标准提供肿瘤分类;

  • 以及提供跨多种模式的诊断成像报告摘要。

在USMLE测试中,DeepSeek-R1(准确率=0.92,粉)的性能略逊于ChatGPT-o1(准确率=0.95,绿),但优于 Llama 3.1-405B(准确率=0.83,黄)。

对于基于文本的病例挑战,DeepSeek-R1的表现与ChatGPT-o1相似。分别使用新英格兰医学杂志(NEJM)和Medicilline数据库。

对于RECIST分类,DeepSeek-R1的表现也与ChatGPT-o1类似(0.73 vs 0.81;p = 0.10)。

DeepSeek提供的诊断推理步骤被认为比ChatGPT和Llama 3.1-405B提供的更准确

然而,DeepSeek-R1提供的汇总成像报告的整体质量低于ChatGPT-o1(5分Likert评分:4.5 vs 4.8)。

这项研究强调了DeepSeek-R1 LLM在医疗应用方面的潜力,但也强调了需要改进的领域。

两项研究说明,国产DeepSeek展现了作为开源医疗AI基座的潜力:其诊断推理能力已达临床可用水平。尽管在知识覆盖深度和生成任务精细化程度上仍需迭代,但通过本地数据的持续微调,有望发展成为安全可控的临床决策支持系统。


评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明