预测模型的验证是模型发表和应用的必不可少的环节。模型验证的目的是评估模型的可重复性和可移植性,通常涉及内部和外部验证过程。
内部验证用的是模型开发时的数据集,主要关注可重复性。外部验证主要看可推广性(可移植性)。
内部验证主要包括随机分割法和重新采样技术,如交叉验证和自助法(bootstrapping)。
外部验证包括地理验证(或称空间验证,geographical validation)和时间验证(temporal validation)。
相较而言,外部验证的数据集更难获得,这是显而易见的!
内部验证的数据集要与模型构建的数据集是一样的,是一个数据集随机拆成两份,一份拿来验证;
而外部验证的数据集则是与模型构建数据集是不同的,这个不同可以是不同地域,不同领域,不同时间都是可以,根据您的研究目的,都可以应用。
今天老郑和诸位分享的这篇文章,用中国老牌数据库CHARLS构建机器学习预测模型,一个数据库同时搞定了预测模型内部验证和外部验证,一起看看如何实现的吧!
2025年2月21日,广东医科大学附属医院学者在期刊《Journal of Affective Disorders》(医学二区,IF=4.9)上发表了一篇题为:“A machine-learning-derived online prediction model for depression risk in COPD patients: A retrospective cohort study from CHARLS”的研究论文,旨在开发一个在线预测模型,以评估COPD患者抑郁症的风险,帮助医务人员及时进行干预。
本研究纳入了2018年中国健康与退休纵向研究(CHARLS)中的2921例COPD患者,为了防止过拟合和评估模型预测的泛化能力:
内部验证:研究者将样本随机分为训练集(70%)和测试集(30%),并在训练集上进行数据处理和模型构建。
时间外部验证:采用2013 CHARLS数据。
分析了36项行为、健康、心理和社会人口指标。使用LASSO回归(最小绝对收缩和选择算子)筛选出与抑郁风险相关的预测因素,从而减少模型的复杂性。
最终选择的特征包括:性别、自我感知的健康状况、关节炎、肾脏疾病、消化系统疾病、生活满意度、残疾、跌倒史、疼痛、ADL 评分和睡眠时间。
研究者应用六种机器学习模型,来确定预测COPD患者抑郁风险的最佳模型。包括:逻辑回归(Logistic Regression),支持向量机(Support Vector Machine),多层感知器(Multilayer Perceptron),LightGBM,XGBoost,随机森林(Random Forest)。通过网格搜索调整确定每个模型的最佳超参数配置。
研究结果显示,通过整合训练、测试和验证集中的每个预测模型,XGBoost展示了最熟练和最强大的预测性能,AUROC为0.811 (95% CI 0.790-0.829),准确度为78.91%,灵敏度为77.31%,精确度为79.74%,特异性为80.51%,F1评分为78.50%。
图 六种不同预测模型的性能及比较。
(A)训练集的ROC曲线;(B)测试集的ROC曲线;(C)验证集的ROC曲线;
(D)测试集校准曲线;(E)验证集的校准曲线;
(F)测试集决策曲线分析;(G)验证集的决策曲线分析;
(H)测试集的准确率-召回率曲线;(I)验证集的准确率-召回率曲线。
虽然GBM、SVM、LR和MLP也表现出很强的预测性能,但XGBoost被认为在不同的数据集上相对更稳定,是最优模型。
通过SHAP分析,研究揭示了影响COPD患者抑郁风险的关键变量及其贡献度。结果显示,生活满意度、自我感知健康状况、日常生活能力(ADL)评分和睡眠时间是影响抑郁风险的主要因素。
从文中可以看出,本文的外部验证是用了CHARLS队列中不同年份的数据,这样做是可行的。CHARLS队列数据真的很宝藏!