随着中国社会人口老龄化的不断加剧和生活方式的快速转变,中老年群体已经成为我国心血管疾病(CVD)的高危人群。传统的预测模型(如Framingham评分),主要基于线性假设,在捕捉复杂风险因素的交互作用方面存在局限性。
因此,本文的研究者基于机器学习算法构建预测模型,用于更准确地预测中老年群体CVD的发病风险。
2025年2月7日,中国学者用CHARLS数据库,在期刊《Bmc Public Health》(医学二区top,IF=3.5)发表了一篇题为:“Characterisation of cardiovascular disease (CVD) incidence and machine learning risk prediction in middle-aged and elderly populations: data from the China health and retirement longitudinal study (CHARLS)”的研究论文。
在本研究中,研究团队基于CHARLS的随访数据,分析中国中老年人群2011-2020年内CVD的发病特征,并采用五种机器学习算法构建CVD风险预测模型,以弥补当前大样本、长期追踪研究在这一领域的不足。
研究团队使用了中国健康与退休纵向研究(CHARLS)数据库2011年的数据以及四次随访数据(2013年、2015年、2018年、2020年),经过纳排,最终在基线数据(2011年)中纳入了14,399名年龄≥45岁符合条件的参与者,进行了9年的随访,平均年龄为58.86岁,女性占50.2%。
研究数据主要分为两部分,首先,研究团队基于四次随访数据,探究我国中老年人群CVD发病率;其次,研究团队利用基线数据和2020年的随访数据,构建了CVD风险预测模型。
图1 研究人群的筛选
与先前的研究结果一致,本研究结果也显示,从2011-2020年,我国中老年人群的CVD累积发病率逐年上升(2年2.85%,9年20.52%),其中女性发病率始终高于男性、非汉族的风险高于汉族。
同时,由于高盐饮食和寒冷的气候,东北地区的发病率显著高于其他地区,成为我国首位。
图2 2011-2020年,不同地区心血管疾病的累积发病率
√机器学习模型预测CVD发病率
经过纳排,研究团队最终纳入了8,080名符合条件的参与者进行CVD风险预测分析。
采用随机森林算法填补缺失值,然后按照7:3的比例将参与者随机分为训练集和测试集。
基于最小绝对收缩和选择算子(Lasso CV)筛选的24个关键特征,研究团队构建了五个机器学习模型,其中LGB模型综合表现最佳(AUC=0.818),但遗憾的是,其难以有效识别高风险患者(F1评分为 0.509,召回率为43.1%)。
图3 机器学习分析结果
研究团队进一步通过Shapley 加法解释 (SHAP法)对模型进行解释,结果发现夜间睡眠时长异常、高甘油三酯(TG)和腰围增大是心血管风险的核心风险因素,而高密度脂蛋白(HDL)则具有保护作用。
这意味着我们针对这些与生活方式、代谢综合征和脂质代谢健康等密切相关的因素进行干预,可以有效降低我国老年人患CVD风险。
图4 SHAP法
综上所述,从2011至2020年,我国中老年人群心血管疾病的发病率呈显著增长趋势,其中性别和地区差异突出。研究团队构建的LGB模型虽在整体分类表现上优于传统方法,但在识别高风险患者方面仍需改进。
用公共数据联合机器学习构建预测模型的优秀文章,我们在之前还分享过MIMIC和NHANES数据库,感兴趣的同学可点击下方链接了解详情!
想发高分SCI文章的朋友,郑老师的公共数据库课程和机器学习课程,一应俱全!详细的教学内容和案例复现,让你发文不再是难题。