公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

预测模型内部验证和外部验证数据集来自同一个中国数据库

Administrator
发布于 2025-07-02 / 156 阅读
0
0

预测模型的验证是模型发表和应用的必不可少的环节。模型验证的目的是评估模型的可重复性和可移植性,通常涉及内部和外部验证过程。

内部验证用的是模型开发时的数据集,主要关注可重复性。外部验证主要看可推广性(可移植性)。

  • 内部验证主要包括随机分割法和重新采样技术,如交叉验证和自助法(bootstrapping)。

  • 外部验证包括地理验证(或称空间验证,geographical validation)和时间验证(temporal validation)。

相较而言,外部验证的数据集更难获得,这是显而易见的!

  • 内部验证的数据集要与模型构建的数据集是一样的,是一个数据集随机拆成两份,一份拿来验证;

  • 而外部验证的数据集则是与模型构建数据集是不同的,这个不同可以是不同地域,不同领域,不同时间都是可以,根据您的研究目的,都可以应用。

今天老郑和诸位分享的这篇文章,用中国老牌数据库CHARLS构建机器学习预测模型,一个数据库同时搞定了预测模型内部验证和外部验证,一起看看如何实现的吧!

2025年2月21日,广东医科大学附属医院学者在期刊《Journal of Affective Disorders》(医学二区,IF=4.9)上发表了一篇题为:“A machine-learning-derived online prediction model for depression risk in COPD patients: A retrospective cohort study from CHARLS”的研究论文,旨在开发一个在线预测模型,以评估COPD患者抑郁症的风险,帮助医务人员及时进行干预。


本研究纳入了2018年中国健康与退休纵向研究(CHARLS)中的2921例COPD患者,为了防止过拟合和评估模型预测的泛化能力:

内部验证:研究者将样本随机分为训练集(70%)和测试集(30%),并在训练集上进行数据处理和模型构建。

时间外部验证:采用2013 CHARLS数据。

分析了36项行为、健康、心理和社会人口指标。使用LASSO回归(最小绝对收缩和选择算子)筛选出与抑郁风险相关的预测因素,从而减少模型的复杂性。

最终选择的特征包括:性别、自我感知的健康状况、关节炎、肾脏疾病、消化系统疾病、生活满意度、残疾、跌倒史、疼痛、ADL 评分和睡眠时间。

研究者应用六种机器学习模型,来确定预测COPD患者抑郁风险的最佳模型。包括:逻辑回归(Logistic Regression),支持向量机(Support Vector Machine),多层感知器(Multilayer Perceptron),LightGBM,XGBoost,随机森林(Random Forest)。通过网格搜索调整确定每个模型的最佳超参数配置。

研究结果显示,通过整合训练、测试和验证集中的每个预测模型,XGBoost展示了最熟练和最强大的预测性能,AUROC为0.811 (95% CI 0.790-0.829),准确度为78.91%,灵敏度为77.31%,精确度为79.74%,特异性为80.51%,F1评分为78.50%。

图 六种不同预测模型的性能及比较。

(A)训练集的ROC曲线;(B)测试集的ROC曲线;(C)验证集的ROC曲线;

(D)测试集校准曲线;(E)验证集的校准曲线;

(F)测试集决策曲线分析;(G)验证集的决策曲线分析;

(H)测试集的准确率-召回率曲线;(I)验证集的准确率-召回率曲线。

虽然GBM、SVM、LR和MLP也表现出很强的预测性能,但XGBoost被认为在不同的数据集上相对更稳定,是最优模型。

通过SHAP分析,研究揭示了影响COPD患者抑郁风险的关键变量及其贡献度。结果显示,生活满意度、自我感知健康状况、日常生活能力(ADL)评分和睡眠时间是影响抑郁风险的主要因素。

从文中可以看出,本文的外部验证是用了CHARLS队列中不同年份的数据,这样做是可行的。CHARLS队列数据真的很宝藏!


评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明