公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

中科院一区:中国学者建了100个机器学习预测模型,真卷!

Administrator
发布于 2025-07-11 / 9 阅读
0
0

老郑看到一篇文章,机器学习建模建了100个,挺有意思的,是实力?还是内卷?我们一起看看!

这篇文章是中国学者发表在中科院一区影响因子7.0的杂志《BMC Medicine》的一篇机器学习开发预测模型的文章,题为:“Development and external validation of a machine learning-based model to predict postoperative recurrence in patients with duodenal adenocarcinoma: a multicenter, retrospective cohort study”

十二指肠腺癌具有较高的术后复发率,准确预测术后复发对临床诊疗至关重要。所以,研究团队旨在开发基于机器学习的预测模型以评估十二指肠腺癌(DA)患者术后复发风险。

研究纳入了2012-2023年间在中国16家三级甲等医院接受根治性手术的1830例DA患者。患者被分为训练队列和三个独立的验证队列。

机器学习构建预测模型如何开展的?

  • 预测因子筛选

在训练队列中,超过35%缺失率的变量被排除在分析之外。训练队列中的53个变量被纳入十种机器学习算法中使用包装器方法(WM)进行预测因子筛选

WM的原理是通过在选择特征子集上拟合模型、评估其性能,最终选择对该学习器表现最佳的特征子集。

WM的整个预测因子筛选过程如下:

(1)学习器选择一个特征子集(通过顺序前向选择迭代添加特征);

(2)使用十折交叉验证重采样策略开发预模型并计算该特征子集的预模型的一致性指数(C-index);

(3)重复上述过程,直到计算完所有特征子集的C-index;

(4)选择并输出C-index最高的特征子集作为该学习器的WM结果。

每个学习器的预测因子筛选结果是一个包含若干临床特征的特征子集。

在分别计算十种机器学习算法后,共获得十个特征子集,用于后续模型开发。

  • 机器学习模型开发与验证

研究者选择了能够处理连续变量和分类变量的广泛认可的十种机器学习算法,包括:Akritas估计器(AKE)、梯度提升(GB)、提升广义加性模型(GAMB)、提升广义线性模型(GLMB)、生存树(ST)、条件推断树(CIT)、随机生存森林(RSF)、条件随机森林(CRF)、加速斜随机生存森林(AORSF)以及惩罚回归(PR)。

这些算法均来自“mlr3proba” R包。

十种机器学习算法与十个特征子集结合用于开发模型。这些模型在训练队列中进行训练,此过程总共产生了 100 个专门用于预测复发的机器学习模型。随后在三个验证队列中进行验证。

通过三个独立验证队列,采用一致性指数(C-index)评估模型性能,选择三个验证队列中平均C-index最高的模型进行进一步研究。在所有100个预测模型中,C指数平均排名前50位如图所示。

图1 排名前50的机器学习模型的一致性指数

惩罚回归(PR)与加速斜随机生存森林(AORSF)结合的模型(PAM)在三个验证队列中的平均C-index最高,达到0.739,成为所有模型中最有效的模型。

PAM在训练队列中的C-index为0.882(95% CI 0.860–0.886),在验证队列1中为0.747(95% CI 0.683–0.798),在验证队列2中为0.736(95% CI 0.649–0.792),在验证队列3中为0.734(95% CI 0.674–0.791),均高于其他模型。

绘制时间依赖性校准曲线、时间依赖性受试者工作特征曲线及决策曲线进行验证。

结果表明,PAM在训练队列和三个验证队列中均实现了中等程度的校准;预测准确性较强;在一定阈值概率范围内均表现出一致的净获益。在所有四个队列中,PAM均优于“不治疗”和“全部治疗”策略,表明其在决策中具有实际应用价值。

图2 用时间依赖性校准曲线评价PAM的校准

图3 通过时间依赖性 ROC 曲线评估 PAM 的预测准确性

为了研究不同特征对模型性能随时间的影响,采用了一种时间依赖的特征重要性分析方法。通过时间依赖性特征重要性曲线展示了PAM模型中每个预测因子随时间变化的重要性。

通过排列特征值后计算模型的Brier评分损失来评估每个预测因子的显著性,并通过十倍交叉验证重抽样策略重复这一过程以提高统计可靠性。这种方法能够识别哪些特征对模型预测的重要性随着时间的推移而变化,为时间敏感的临床决策提供了至关重要的见解。

图4 利用随时间变化的特征重要性曲线解释PAM

  • 网络风险计算器和分期系统的开发

使用ST确定风险评分的截断值,从而将患者分为高风险、中风险和低风险组。此外,开发了一个基于网络的应用程序(https://drlx0721.shinyapps.io/PAMforDA/),利用R包“shiny”使这些预测模型在线可访问。

这篇文章虽说构建了100个机器学习预测模型,工作量庞大,发表在一区杂志。但是“发高分文章,不是靠堆模型,而是靠讲好一个科学故事”。高分杂志更看重科学问题的精准性和临床转化的潜力。

毕竟,审稿人也是人,他们也想看到能改变临床实践的研究。模型不仅要AUC高,还要证明临床应用能带来净收益。


评论