公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

蚌埠医科大学发文二区top,机器学习联合国产CHARLS数据的思路,有意思!

Administrator
发布于 2025-03-14 / 20 阅读
0
0

随着中国社会人口老龄化的不断加剧和生活方式的快速转变,中老年群体已经成为我国心血管疾病(CVD)的高危人群。传统的预测模型(如Framingham评分),主要基于线性假设,在捕捉复杂风险因素的交互作用方面存在局限性。

因此,本文的研究者基于机器学习算法构建预测模型,用于更准确地预测中老年群体CVD的发病风险。

2025年2月7日,中国学者用CHARLS数据库,期刊《Bmc Public Health》(医学二区top,IF=3.5)发表了一篇题为:“Characterisation of cardiovascular disease (CVD) incidence and machine learning risk prediction in middle-aged and elderly populations: data from the China health and retirement longitudinal study (CHARLS)”的究论文。

在本研究中,研究团队基于CHARLS的随访数据,分析中国中老年人群2011-2020年内CVD的发病特征,并采用五种机器学习算法构建CVD风险预测模型,以弥补当前大样本、长期追踪研究在这一领域的不足。

研究团队使用了中国健康与退休纵向研究(CHARLS)数据库2011年的数据以及四次随访数据(2013年、2015年、2018年、2020年),经过纳排,最终在基线数据(2011年)中纳入了14,399名年龄≥45岁符合条件的参与者,进行了9年的随访,平均年龄为58.86岁,女性占50.2%。

研究数据主要分为两部分,首先,研究团队基于四次随访数据,探究我国中老年人群CVD发病率;其次,研究团队利用基线数据和2020年的随访数据,构建了CVD风险预测模型。

图1 研究人群的筛选

与先前的研究结果一致,本研究结果也显示,从2011-2020年,我国中老年人群的CVD累积发病率逐年上升(2年2.85%,9年20.52%),其中女性发病率始终高于男性、非汉族的风险高于汉族。

同时,由于高盐饮食和寒冷的气候,东北地区的发病率显著高于其他地区,成为我国首位。

图2 2011-2020年,不同地区心血管疾病的累积发病率

√机器学习模型预测CVD发病率

经过纳排,研究团队最终纳入了8,080名符合条件的参与者进行CVD风险预测分析。

  • 采用随机森林算法填补缺失值,然后按照7:3的比例将参与者随机分为训练集和测试集。

基于最小绝对收缩和选择算子(Lasso CV)筛选的24个关键特征,研究团队构建了五个机器学习模型,其中LGB模型综合表现最佳(AUC=0.818),但遗憾的是,其难以有效识别高风险患者(F1评分为 0.509,召回率为43.1%)。

图3 机器学习分析结果

研究团队进一步通过Shapley 加法解释 (SHAP法)对模型进行解释,结果发现夜间睡眠时长异常、高甘油三酯(TG)和腰围增大是心血管风险的核心风险因素,而高密度脂蛋白(HDL)则具有保护作用。

这意味着我们针对这些与生活方式、代谢综合征和脂质代谢健康等密切相关的因素进行干预,可以有效降低我国老年人患CVD风险。

图4 SHAP法

综上所述,从2011至2020年,我国中老年人群心血管疾病的发病率呈显著增长趋势,其中性别和地区差异突出。研究团队构建的LGB模型虽在整体分类表现上优于传统方法,但在识别高风险患者方面仍需改进。

用公共数据联合机器学习构建预测模型的优秀文章,我们在之前还分享过MIMIC和NHANES数据库,感兴趣的同学可点击下方链接了解详情!

想发高分SCI文章的朋友,郑老师的公共数据库课程和机器学习课程,一应俱全!详细的教学内容和案例复现,让你发文不再是难题。


评论