公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

中国学者用15年数据构建临床预测模型发文,就要这么干!

Administrator
发布于 2025-07-25 / 11 阅读
0
0

剖宫产子宫瘢痕异位妊娠(CSEP)是剖宫产术后妊娠的一种潜在致命的并发症,可能导致孕妇大出血或死亡。手术中的出血量直接影响手术的成功率。

近年来,基于电子病历(EMR)数据构建的机器学习(ML)预测模型研究日益增多。本研究团队开发的最佳预测模型已被集成到一个网络应用程序中,使临床医生无需掌握R语言或编程技能即可预测CSEP患者的术中风险。

2024年12月,中国学者在医学顶级期刊Lancet子刊《eClinicalMedicine》(医学一区top,IF=9.6)发表了一篇题为:“Risk of intraoperative hemorrhage during cesarean scar ectopic pregnancy surgery: development and validation of an interpretable machine learning prediction model”的研究论文。

在该项研究中,研究团队使用四种方法确定模型的预测因子,并使用八种机器学习法构建预测模型。不同于我们之前介绍的SHAP法,本研究使用"iBreakDown"包对模型进行可视化。

(如果你需要全文,请在医学论文与统计分析微信公众号后台回复关键词“pdf”。如果你对机器学习感兴趣,千万不要错过我们的基于R语言的机器学习构建临床预测模型课程!详情可咨询助教,微信号:aq566665)

数据收集与处理

该研究是一项多中心回顾性研究,纳入了四家三级医疗机构的EMR数据,分别用于构建预测模型、内部验证和外部验证。

√数据收集

在模型构建阶段,研究团队纳入了2008年1月1日至2023年12月31日期间,在全国三家三级医疗机构就诊1680名、25~40岁的CSEP患者的EMR数据,包括:

  • 在山东大学齐鲁医院治疗的1118例CSEP患者;

  • 在重庆市妇幼保健院治疗的189例CSEP患者;

  • 在德州市妇幼保健院治疗的373例CSEP患者。

外部验证集则来自聊城市东昌府区妇幼保健院的295名CSEP患者,时间跨度为2021年1月1日至2023年12月31日。

√数据处理

研究团队首先需要对数据进行处理,将类别变量视为虚拟变量,消除接近零方差的变量,并对数值变量进行标准化以减轻过拟合。

在纳入的1680例患者中,19例出现部分变量数据缺失,总缺失率达1.13%。

因此,研究团队使用mice和Vim软件包处理缺失数据。由于丢失的数据完全是随机的,研究团队进一步使用RF算法,对原始缺失数据进行了5次插补,50次迭代,并完成了敏感性分析。

图1 研究流程

筛选变量

最初,研究团队通过系统综述、Meta分析和专家临床意见确定了20个造成CSEP患者术中大出血的因素。

  • 包括人口统计学特征、生育史、医学背景、临床症状和超声检查特征。

接着,根据变量减少原则,采用RF,Lasso,Boruta和XGBoost四种方法对20个候选变量进行额外筛选,最终确定了9个最佳的预测变量。

  • 包括:孕龄、术前阴道出血持续时间、孕囊或妊娠包块的平均直径、子宫前肌层厚度、血清HGB水平、血清β-hCG水平、子宫动静脉瘘、早孕胎盘植入频谱疾病和超声成像血流分级。

图2 基于四种方法筛选出的9种共同预测变量

模型的构建与评估

在填补完缺失数据后,数据被随机分为训练集(70%)和验证集(30%)。

√模型构建
使用8种机器学习法构建CSEP患者术中大出血的预测模型,包括朴素贝叶斯(Bayes)、多层感知(MLP)、决策树(DT)、K-最近邻算法(KNN)、逻辑回归(LR)、RF、支持向量机(SVM)和XGBoost。

√模型评估

使用准确性、AUC和决策曲线(DCA) 评估模型性能。

对于最佳预测模型,使用灵敏度、特异性、马修斯相关系数和F1评分进行内部和外部验证。

研究结果表明,在训练集中,朴素贝叶斯(Bayes)的预测性能最佳,AUC为0.882。

图3 验证集中,8种机器学习预测模型的ROC曲线

在内部验证集中,朴素贝叶斯(Bayes)的AUC为0.822(95% CI:0.801-0.843);外部验证集中,朴素贝叶斯(Bayes)的AUC为0.853(95% CI:0.832-0.874)。

图4 内外部验证集中,朴素贝叶斯(Bayes)模型的ROC曲线

模型解释与网络应用

模型解释

使用iBreakDown包,生成部分依赖图(PDP),阐明了单个预测变量对主要结果指标的影响。

√网络风险预测程序

将最佳预测模型通过Shiny部署在互联网上,从而无需使用R代码软件就能实现应用程序的共享。

在输入模型所需的9个预测变量的实际值后,应用程序将自动计算CSEP患者术中出血的概率。

  • 研究团队将该程序向所有用户开放(https://cnsdql.shinyapps.io/csep-prediction-model/,测试账户:SuperManagerr,密码:QiLuhospitalall);

  • 新用户也可以使用个人电子邮件免费注册。

综上所述,研究团队基于多个中心医院的EMR数据开发了一个ML模型,在预测CSEP患者术中出血风险方面表现出较强的区分能力和临床实用性。

基于研究结果,研究者认为要想减少术中并发症,提高手术成功率,可以事先进行针对性的术前准备,例如确保足够的输血单位供应或选择有经验的手术团队。

老郑小评

老郑去试了一下他们提供的应用程序,运行速度很快,只要填上信息,几秒就能给出预测结果。

对于文章的统计学方法来说,还是比较符合构建机器学习预测模型的常见套路的。但它写得更全,从缺失数据、到特征选择到建模、甚至写到了模型发布,模型验证具有内部验证与外部验证。

尤其是,特征选择,用到了的四种方法,可能是因为CSEP相关变量间存在复杂的交互作用,研究团队要用多种方法验证才能确定哪些是真正重要的预测因子,而不是偶然出现在某一种方法中的“噪音”变量。

另外,最后结果呈现也非常不错一般机器学习不可绘制像列线图这种可视化图形,但是可以采用网页版直接进行线上预测。他们也实现了!!!


评论