公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

预测模型缺失数据比例大于10%怎么办?来看Lancet子刊文章

Administrator
发布于 2025-07-09 / 53 阅读
0
0

在我们的临床研究中,很难得到高质量的数据。

以医院数据为例,收集的数据不够完整,存在缺失,这些缺失数据如同鸡肋,食之无味,弃之可惜。

所以,现在对医学研究缺失数据填补的问题,很多人都有了一定的思考,有缺失,还是要填补,无论是临床试验、调查研究,无论是前瞻性还是回顾性。

今天,老郑看到一篇用Python软件开发预测模型的文章,发表在医学顶级期刊Lancet子刊《eClinicalMedicine》(医学一区top,IF=9.6)上,题为:“Performance of an AI prediction tool for new-onset atrial fibrillation after coronary artery bypass grafting”,作者是暨南大学护理学院副教授杨巧红团队。

这篇文章对于缺失数据的处理十分严谨,今天我们一起学习一下!

数据缺失大致分为三种类型完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)。

关于这部分的详细介绍,大家可以看看我们之前发过的推文:

缺失数据4 | 缺失数据填补R包实战

我们都知道,不同的缺失机制需要用不同的插补方法。如何确定缺失机制?如何选择插补方法?老郑认为这篇文章做的挺好!

我们先简单看看原文是怎么做的:


研究团队开发并验证了一种新型的基于人工智能(AI)的床旁预测工具,以准确预测冠状动脉旁路移植术(CABG)后的心房颤动(NOAF)发生风险。

来自一家医院的 2486 名患者构成了模型开发队列,并按 7:3 比例分为训练集和测试集,而来自另一家医院的 508 名患者构成了外部验证队列。数据分析使用 Python(v3.12.5)进行。

数据缺失情况见下图:

研究团队对原始数据集的缺失数据模式进行了分析,采用 Little'MCAR(完全随机缺失)检验,结果显示 χ² 值为 5888.25(p < 0.001),表明数据并非完全随机缺失(MCAR)。

因此,简单地删除缺失率超过 10% 的数据可能会引入偏倚。

为解决这一问题,研究者分别构建了包含和不包含缺失率超过 10% 患者的模型,并使用 DeLong 检验进行敏感性分析,以比较模型性能。

结果证明模型具有稳健性。

因此,在本研究中,为确保数据尽可能贴近真实世界情况,研究者排除了缺失率超过10%的患者。

了解数据缺失的机制对于选择合适的处理方法至关重要,而文中所用的Little'MCAR检验便是一种用于判别数据是否为完全随机缺失(Missing Completely at Random,MCAR)的有效手段。

基本原理在于,如果数据缺失模式是完全随机的,那么缺失数据与观察到的数据之间应该无关。Little'MCAR检验通过P值来判断数据缺失的模式:

  • P值 > 0.05:无法拒绝原假设,意味着数据缺失可能是完全随机的。

  • P值 ≤ 0.05:拒绝原假设,说明数据缺失不是完全随机的,可能是随机缺失(MAR)或非随机缺失(MNAR)。

随后,研究团队采用了多种缺失值填补技术,包括均值插补(Mean Imputation)、K 近邻(K-Nearest Neighbor, KNN)插补和链式方程多重插补(Multiple Imputation by Chained Equations, MICE)。基于每种插补方法生成的数据集分别构建模型。

为评估不同插补方法对模型的影响,我们使用DeLong检验比较各模型的AUC值,以进行敏感性分析,统计显著性水平设定为 p<0.05。

最后,研究者采用链式方程(MICE)多重插补来解决缺失数据,生成10个插补数据集用于后续分析。

缺失值的存在不可避免,不同研究团队对此的处理略有不同。但是,如何正确处理缺失值至今没有标准。

这篇文章研究者对于缺失数据处理的思路是非常清晰的,研究设计严谨,统计学方法规范,非常值得我们借鉴!


评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明