公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

两眼一睁,就是卷!华科大五库联合+机器学习,拿下Nature子刊

Administrator
发布于 2025-08-12 / 5 阅读
0
0

随着全球人口老龄化和经济不平等的加剧,抑郁症的社会经济影响因素(如收入、教育、健康行为等)呈现出复杂性和多样性。

传统线性模型难以捕捉这些多因素交互作用,因此需要借助机器学习等先进方法揭示抑郁症的异质性风险因素,为精准干预提供依据。

2025年8月4日,华中科技大学学者联合HRS、CHARLS、SHARE、ELSA、MHAS数据库,在医学顶刊Nature子刊《Npj Digital Medicine》(医学一区Top,IF=15.1)发表了一篇题为:“Determinants of depressive symptoms in multinational middle-aged and older adults”究论文。

本研究旨在通过构建可解释的跨国抑郁症风险预测模型,利用SHAP法量化社会经济因素(收入、财富、数字包容性等)的贡献度,识别不同收入/性别亚组的异质性风险模式,为精准干预提供依据。

在公共数据库与孟德尔随机化公众号回复“原文”即可获得文献PDF等资料,如果进一步需要CHARLS数据库方法学习请联系郑老师团队,微信号:aq566665

研究整合了五个国际队列的数据:

  • HRS (美国健康与退休研究)

  • CHARLS (中国健康与养老追踪调查)

  • SHARE (欧洲健康、老龄化和退休调查)

  • ELSA (英国老龄化纵向研究)

  • MHAS (墨西哥健康与老龄化研究)

最终共纳入68,372名50岁及以上参与者,涵盖16个国家,数据包括人口统计、社会经济状况、生活方式和健康指标等。

图1 五个队列联合预测的研究流程图

研究采用六种机器学习算法(XGBoost、LightGBM、逻辑回归、支持向量机、随机森林和AdaBoost)预测抑郁症风险,通过SHAP值解释模型特征重要性,并按收入和性别分层分析风险因素的异质性。

主要研究结果

研究结果显示,在6种机器学习算法中,XGBoost在四个队列(CHARLS、SHARE、HRS、MHAS)中预测抑郁症风险的性能最佳(AUC为0.6777 - 0.8771),LightGBM则在ELSA中表现最优(AUC为0.9011)。

图2 内部和外部验证的ROC曲线 

a-e分别对应 SHARE、MHAS、ELSA、HRS 和 CHARLS 数据库

同时,SHAP分析确定了自评健康是大多数队列中最强的预测因子,但在MHAS中性别更为重要。

图3 对各队列的最佳模型进行SHAP分析

此外,按收入和性别进行的亚组分析表明,财富、就业、数字包容性和婚姻状况对低收入群体的影响更显著。

并且风险因素存在明显的性别差异,具体表现为:男性中吸烟贡献度更高(SHARE男+0.13 vs 女+0.08),而女性中婚姻状态更显著。

综上所述,研究强调了机器学习在传统模型之外揭示微妙的、依赖于环境的风险概况的能力,强调了有必要采取量身定制的干预措施,以解决老龄化人口的各种脆弱性,特别是那些低收入群体。


评论