公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

杀疯了!中国学者联合8种机器学习法+MIMIC多数据集,发文一区top

Administrator
发布于 2025-08-11 / 53 阅读
0
0

新发房颤(NOAF)是心脏手术后患者最常见的并发症,总体发病率为31%至74%。先前的研究发现,NOAF的发生可能会增加患者的中风、心力衰竭(HF)以及死亡风险。

近年来,机器学习(ML)在医学领域的应用越来越广泛,尤其在构建患者的生存和预后预测模型方面取得了不少成果。因此,本研究同样使用ML方法构建危重患者NOAF风险人群识别模型,并利用SHAP法对模型进行可视化解读。

2024年10月29日,中国学者用MIMIC-IVMIMIC-III两个数据集,在期刊《Critical Care》(医学一区top,IF=8.8)发表题为:“Interpretable machine learning model for new-onset atrial fibrillation prediction in critically ill patients: a multi-center study”的研究论文,旨在使用机器学习(ML)创建并验证危重患者的NOAF预测模型,同时使用SHAP法对模型结果进行解释。

(在公共数据库与孟德尔随机化微信公众号后台回复“ 原文”即可获得文献PDF资料。就在本周末,我们的基于R语言构建机器学习课程开课啦如感兴趣请联系郑老师团队,微信号:aq566665)

在该项研究中,研究团队使用MIMIC数据库的两个非重叠数据集:

  • MIMIC-IV用于构建模型,经过纳排,最终纳入16,528名年龄≥18岁,入住ICU超过2天、未接受心脏手术切无AF病史的参与者(对于多次入住ICU的患者,仅纳入患者首次入住ICU时的入住记录)

  • MIMIC-III的子集用作外部验证,最终纳入6,037名符合条件的参与者。

图1 研究设计

√数据收集

研究团队使用PostgreSQL中的结构化查询语言(SQL),从两个数据库中提取前24小时内入住ICU的患者的数据,包括人口学信息、合并症、实验室指标、生命体征及治疗措施等。由于提取的变量较多,本文就不一一展示了。

除变量经皮动脉血氧饱和度(SpO 2)外,其余变量都取第一天的最大值和最小值进行多次测量。

√数据处理

为减少缺失数据对模型构建的影响,使用KNNImputer(KNN)方法插补缺失小于20%的数据,并丢弃缺失大于20%的数据。

由于因变量中的类别不平衡,采用欠采样的方式对数据进行重采样,使数据达到平衡。

主要结局:患者在ICU入院后第一天发生NOAF。

Lasso法筛选特征

在特征较多的情况下,研究者采用lasso方法进行特征筛选。

  • 引入L1正则化,通过压缩系数、筛选贡献较大的特征、剔除冗余特征等方法进行特征选择和降维。

最终,纳入了与NOAF密切相关的23个变量(包括入院年龄、种族、体重、尿量、WBC_max(白色细胞)、BUN_min(血尿素氮)、钾_min、HR_min(心率)、HR_max、SBP_min(收缩压)、DBP_max(舒张压)、MBP_min、RR_min、temperature_min、temperature_max、SpO2_min、慢性肝病、HFrEF、HFpEF、脓毒症、机械通气、CRRT、血管加压药)

图2  基于Lasso回归的变量筛选

(A)变系数的变化特征;(B) 用交叉验证对Lasso回归模型中参数λ最优值进行选择

模型性能比较

使用8种机器学习(ML)法构建预测模型(包括极限梯度提升(XGBoost)、支持向量机(SVM)、自适应提升(Adaboost)、多层感知器(MLP)、神经网络(NN)、朴素贝叶斯(NB)、逻辑回归(LR)和梯度提升机(GBM))

  • 采用10重交叉验证法保证模型的稳定性;

  • 网格调整参数为每种算法选择最佳调整参数。

使用多种指标评估模型性能,包括ROC曲线、AUC值、敏感性、特异性、F1分数、准确性等,并绘制校准曲线和决策曲线(DCA)分析模型的临床适用性。

  • 在参数调整过程中,选取AUC值最大的模型为最佳预测模型。

研究结果表明,XGBoost表现最好,在验证中达到0.891(0.873-0.888)的AUC,在外部验证中达到0.769(0.756-0.782)。

图3 机器学习模型的ROC曲线

SHAP法进行可解释性分析

最后通过SHAP方法分析XGBoost模型的特征贡献,以SHAP力图和群体图形式可视化模型的可解释性。

结果表明,关键预测因素包括年龄、机械通气、尿量、脓毒症、BUN、SpO2、CRRT和体重。

图4 使用SHAP可视化解释机器学习模型

综上所述,研究团队使用8种ML算法通过筛选ICU入院前24小时内的23个临床变量来构建预测模型。

结果表明,XGBoost算法表现出强大的性能,具有鉴别力和校准能力,并在临床实践中显示出巨大的净效益。外部验证队列的结果进一步证实了模型的稳定性和准确性。为了更深入地了解模型,还用SHAP方法进行可视化,得出关键预测指标。


评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明