随着全球人口老龄化和经济不平等的加剧,抑郁症的社会经济影响因素(如收入、教育、健康行为等)呈现出复杂性和多样性。
传统线性模型难以捕捉这些多因素交互作用,因此需要借助机器学习等先进方法揭示抑郁症的异质性风险因素,为精准干预提供依据。
2025年8月4日,华中科技大学学者联合HRS、CHARLS、SHARE、ELSA、MHAS数据库,在医学顶刊Nature子刊《Npj Digital Medicine》(医学一区Top,IF=15.1)发表了一篇题为:“Determinants of depressive symptoms in multinational middle-aged and older adults”的研究论文。
本研究旨在通过构建可解释的跨国抑郁症风险预测模型,利用SHAP法量化社会经济因素(收入、财富、数字包容性等)的贡献度,识别不同收入/性别亚组的异质性风险模式,为精准干预提供依据。
在公共数据库与孟德尔随机化公众号回复“原文”即可获得文献PDF等资料,如果进一步需要CHARLS数据库方法学习,请联系郑老师团队,微信号:aq566665
研究整合了五个国际队列的数据:
HRS (美国健康与退休研究)
CHARLS (中国健康与养老追踪调查)
SHARE (欧洲健康、老龄化和退休调查)
ELSA (英国老龄化纵向研究)
MHAS (墨西哥健康与老龄化研究)
最终共纳入68,372名50岁及以上参与者,涵盖16个国家,数据包括人口统计、社会经济状况、生活方式和健康指标等。
图1 五个队列联合预测的研究流程图
研究采用六种机器学习算法(XGBoost、LightGBM、逻辑回归、支持向量机、随机森林和AdaBoost)预测抑郁症风险,通过SHAP值解释模型特征重要性,并按收入和性别分层分析风险因素的异质性。
主要研究结果
研究结果显示,在6种机器学习算法中,XGBoost在四个队列(CHARLS、SHARE、HRS、MHAS)中预测抑郁症风险的性能最佳(AUC为0.6777 - 0.8771),而LightGBM则在ELSA中表现最优(AUC为0.9011)。
图2 内部和外部验证的ROC曲线
a-e分别对应 SHARE、MHAS、ELSA、HRS 和 CHARLS 数据库
同时,SHAP分析确定了自评健康是大多数队列中最强的预测因子,但在MHAS中性别更为重要。
图3 对各队列的最佳模型进行SHAP分析
此外,按收入和性别进行的亚组分析表明,财富、就业、数字包容性和婚姻状况对低收入群体的影响更显著。
并且风险因素存在明显的性别差异,具体表现为:男性中吸烟贡献度更高(SHARE男+0.13 vs 女+0.08),而女性中婚姻状态更显著。
综上所述,研究强调了机器学习在传统模型之外揭示微妙的、依赖于环境的风险概况的能力,强调了有必要采取量身定制的干预措施,以解决老龄化人口的各种脆弱性,特别是那些低收入群体。