关注医学论文与统计分析公众号的朋友们应该很知道SHAP(SHapley Additive exPlanations)分析了。
在机器学习领域中,模型的可解释性一直备受关注,是一个重要的课题。而SHAP是一种解决这一问题的工具,用来解释机器学习模型预测结果的方法。
而现在,也有文章用SHAP筛选预测因子,但这篇文章又是不同的思路,我们来解析一下!
2025年8月21日,天津大学学者在柳叶刀子刊《Eclinicalmedicine》(医学一区,IF=10.0)发表了一项多中心回顾性队列研究,旨在开发并外部验证一套可解释的多任务机器学习(ML)模型,用以预测横纹肌溶解症患者的四项临床结局:急性肾损伤(AKI)、病情严重度、肾脏替代治疗(RRT)需求及院内死亡率。
一篇文章预测四个结局也是比较少见的,一起看看!
1.数据来源
本研究为回顾性研究,使用三类数据源:
eICU-CRD、MIMIC-IV合并作为模型构建与内部验证的推导队列,纳入 2008–2019 年间的 1429 名患者;
来自中国四所三级医院的电子病历作为外部验证队列,纳入 2016–2022 年间的 362 名患者。
2.特征筛选
选择了入院后首 24 小时内可获得的 22 个临床特征来构建预测模型。
为解决多重共线性问题,对四项预测任务分别进行了 Spearman 相关性分析。当两变量在 Spearman 相关性分析中高度相关(相关系数 > 0.6)时,会将与结局关联较弱的特征从数据集中剔除。
最终共保留 18 项特征用于模型开发。
3.构建机器学习预测模型
将 MIMIC-IV 与 eICU-CRD 数据集合并后,针对四项预测任务分别按 80:20 的比例随机划分为训练集与测试集(采用基于相应二分类结局变量的分层抽样)。
应用了 10 种机器学习算法构建多任务预测模型,包括逻辑回归(LR)、支持向量机(SVM)、决策树(DT)、随机森林(RF)、k 近邻(KNN)、极端随机树(ET)、梯度提升机(GBM)、自适应提升(AdaBoost)、极端梯度提升(XGBoost)和人工神经网络(ANN)。
为减轻过拟合,训练过程中采用五折分层交叉验证。超参数通过网格搜索与人工调整相结合的方法进行调优。
4.机器学习预测模型性能评估
模型性能以受试者工作特征曲线下面积(AUC)等指标进行评估。
对于 AKI 预测,随机森林(RF)模型表现最佳,其次为梯度提升机(GBM)。
对于病情严重度预测,RF 同样位列第一,其次为 GBM。
对于 RRT 预测,RF 仍为最佳,极端随机树(ET)略逊一筹。
对于死亡率预测,XGBoost 得到最高 AUC,其次为 AdaBoost。
5.SHAP法指导预测任务特征选择
使用 SHAP 值指导每项预测任务的特征选择。
从 18 个特征出发,按 SHAP 重要性排序逐步减少特征的数量,同时监测模型性能。
采用 DeLong 非参数检验比较 AUC,并在检测到性能出现显著下降时停止特征剔除。
最终模型的选择基于 SHAP 指导的特征缩减性能,在每项任务中:
完整的 18 特征模型显著优于极简的 2 特征模型(AUC 差值 ΔAUC = 0.067–0.139;均 p < 0.05)
但完整的 18 特征模型与 5 特征模型相比并无统计学显著优势(ΔAUC = 0.008–0.046;均 p > 0.1)。
因此,选取 5 特征模型作为最终模型并用于后续分析。
6.外部验证
在外部验证队列中,最终模型在各预测任务上均保持良好表现,AUC(95% CI)分别为:AKI 0.906(0.871–0.934)、病情严重度 0.856(0.815–0.890)、RRT 需求 0.852(0.811–0.887)和死亡率 0.832(0.789–0.869)。
这些结果支持模型在独立人群中的可推广性与潜在临床应用价值。
7.SHAP分析提供可解释性
为提高模型可解释性并量化各特征的贡献,采用 SHAP方法对特征重要性进行排序,从而缓解机器学习模型的“黑箱”问题。
SHAP 同时提供全局与局部的可解释性:
全局 SHAP 汇总每个特征对模型预测的总体贡献;
局部 SHAP 则识别对单个患者预测有影响的具体因素。
根据各特征的平均 SHAP 值对特征进行排序,如下图所示。
局部可解释性可以更清晰地说明模型如何对单个患者得出预测结果。
8.开发智能决策支持系统
为促进临床应用,我们基于最终模型开发了一款智能决策支持系统,提供网页版和安卓移动应用两种格式。这一步其实相当重要!
老郑小评
这篇机器学习构建预测模型研究非常完整,内容也很丰富,发在lancet子刊是一点不眼红啊!
从特征筛选到模型开发到内外部验证,以及SHAP分析提供可解释性,最后开发智能决策系统,这是一个很完整的机器学习构建预测模型文章的思路。
这篇文章不同的点在于,首先,SHAP法指导预测任务特征选择,在保证模型预测性能的基础上,减少预测因子的数量以减少冗余,降低预测成本,这是个新的思路。
另外,一口气预测四个结局,文章的行文还是很流畅,逻辑清晰,值得学习!
参考文献:Liu C, Shi J, Wang F, Li D, Luo Y, Yang B, Zhao Y, Zhang L, Yang D, Jin H, Song J, Guo X, Fan H, Lv Q. Development and validation of an interpretable multi-task model to predict outcomes in patients with rhabdomyolysis: a multicenter retrospective cohort study. EClinicalMedicine. 2025 Aug 21;87:103438. doi: 10.1016/j.eclinm.2025.103438.