心血管疾病(CVD)已成为全球首要的致死原因。而环境污染物,尤其是挥发性有机化合物(VOCs),也被确定为其重要的风险因素。
然而,在先前的研究中发现,除了依赖特定的环境检测手段来获取VOCs数据外,还可通过检测尿液中的VOCs代谢产物,分析VOCs暴露对人体健康的具体影响。
2024年11月1日,中国学者用NHANES数据库,在期刊《Ecotoxicology and Environmental Safety》(环境科学与生态学top二区,IF=6.2)发表题为:“Identifying cardiovascular disease risk in the U.S. population using environmental volatile organic compounds exposure: A machine learning predictive model based on the SHAP methodology”的研究论文,旨在开发一个可解释的机器学习(ML)模型,并使用基本人口统计数据和VOCs组成的数据来预测CVD发生风险。
研究结果表明,在6种ML预测模型中,RF模型预测性能最佳,其中年龄和ATCA(尿液VOC代谢组分)是预测CVD风险的最重要因素。此外,ATCA在老年人和高血压患者中的保护作用最为显著。
(在公共数据库与孟德尔随机化微信公众号后台回复“ 原文”即可获得文献PDF等资料。如果你对预测模型感兴趣,不妨看看我们的机器学习构建临床预测模型课程!如感兴趣请联系郑老师团队,微信号:aq566665)
研究团队基于美国国家健康与营养调查(NHANES)数据库2011~2018年的数据,经过纳排,最终纳入了5,098名参与者,其中515名为CVD患者。同时,研究团队进一步将数据集分为70%训练集(n =3568)和30%验证集(n =1530),并通过15项尿代谢物指标评估VOCs的暴露情况。
主要研究流程:
✅模型构建
研究团队基于数据集,开发了6种ML模型构建CVD风险预测模型。
包括随机森林(RF),光梯度提升机(LightGBM),决策树(DT),极端梯度提升(XGBoost),多层感知器(MLP)和支持向量机(SVM)。
✅模型评估
研究团队使用一系列指标评价模型的预测性能,并通过SHAP算法阐明具有最佳性能的模型。
包括ROC曲线下面积(AUROC)、准确度、平衡准确度、F1评分、J指数、kappa、Matthew相关系数(MCC)、阳性预测值(PPV)、阴性预测值(NPV)、灵敏度(sens)、特异度(spec)。
机器学习联合NHANES预测疾病风险
ROC曲线的结果表明,在6种ML预测模型中,RF模型的预测性能最好,其AUROC达到了0.8143,表明模型具有优秀的预测能力。
图2 6个ML模型的ROC曲线
(A)测试集;(B)验证集
团队进一步使用SHAP法,评估RF模型中每个特征变量的重要性及其在模型预测中的贡献。结果表明,年龄和ATCA在其中发挥重要作用,具体如下:
年龄是所有变量中最重要的,同时也是CVD风险的重要危险因素。这意味着,随着年龄的增长,发生CVD的风险增加。
在mVOCs组分中,最重要的是ATCA,其重要性仅次于年龄。同时,较高的ATCA水平与CVD风险降低相关,尤其是在高血压患者和老年人中。
图3 RF模型的SHAP图
(A)变量的SHAP值排序;(B)SHAP蜂窝图;(C)连续变量的SHAP值变化趋势图;(D)分类变量的SHAP值的箱形图。
图4 ATCA的SHAP依赖图
(A)ATCA与高血压的交互作用图;(B)ATCA与年龄的交互效应图
综上所述,研究团队认为,RF模型具有优秀的预测CVD风险的能力。因此,将基本人口统计数据与VOCs暴露相结合的模型,在预测未来疾病风险方面具有巨大的潜力。