公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

IF=8.5!仅以常规体检数据,厦大学者用5种机器学习方法构建了心血管预测模型

Administrator
发布于 2025-08-12 / 10 阅读
0
0

近期,厦门大学的学者在期刊《Cardiovascular Diabetology》(医学一区top,IF=8.5)发表了一篇题为:Construction of machine learning diagnostic models for cardiovascular pan-disease based on blood routine and biochemical detection data的研究论文。

在该项研究中,研究团队从血液常规和生化检测数据中提取50个特征,基于机器学习法构建了多种心血管疾病(CVD)的预测模型。同时,还探讨了各种心血管疾病(CVD)的独特血液学特征,包括一些代谢相关指标。

这项具有成本效益的工作将使更多的人受益,并有助于诊断和预防心血管疾病。

如果你需要全文,请在医学论文与统计分析公众号后台回复关键词“pdf”。如果您需要统计服务,郑老师的统计团队可以帮忙!详情可咨询助教,微信号:aq566665

数据收集与处理

在该项研究中,研究团队纳入了2018至2023年在厦门大学第一附属医院神经内科和心脏病科的住院患者。筛选了患者入院后首次检查的血常规和生化数据作为模型构建的特征,健康人则选择每年首次体检的数据。

去除缺失值率超50%的特征后,血常规筛选出22个特征,生化测试数据则筛选出28个。为确保每种CVD疾病的样本量足够,删除了样本少于100例的CVD疾病,同时删除了缺失特征比例大于50%的样本。

最终,使用25,794名健康人和32,822名患者构建模型。

图1 研究流程

机器学习算法的调整

为比较不同机器学习方法的性能,研究团队选择五种机器学习方法(LR,RF,SVM,XGBoost和DNN)来构建预测模型。

在去除缺失值后,研究数据按7:3的比例随机拆分为训练集和验证集。

为消除不同特征尺度对预测模型准确性的影响,研究者对训练集和验证集进行了标准化。然后,结合使用网格搜索交叉验证(CV)和手动微调,对五种机器学习算法进行了超参数选择。

五种机器学习算法超参数选择:

  • 针对LR调整的参数为C、max_iter、penalty和solver;

  • 对于RF,参数为max_depth、min_samples_leaf和n_estimators;

  • 对于SVM,调整后的参数为C、gamma和kernel;

  • 对于XGBoost,参数为colsample_bytree、gamma、learning_rate、max_depth、n_estimators和子样本;

  • 对于DNN,调整后的参数包括激活、层数和每层神经元数。

所有最佳参数都是在区分心血管疾病患者和健康个体的模型的训练集中确定的。

采用5倍交叉验证,曲线下面积(AUC)作为主要性能评估指标,以确定最佳估计值。

模型性能的评价

所有模型都使用最佳估计量进行训练,然后在验证集上进行验证。

使用灵敏度(Sn)、特异性(Sp)、阳性预测值(PPV)、阴性预测值(NPV)、F1评分、马修斯相关系数(MCC)和准确性(Acc)进行模型性能评估。

同时,使用ROC曲线的AUC对模型性能进行了综合评价。此外,为了进一步评估模型的稳健性,使用自举法在验证集上计算所有性能评价指标,以确定其95%置信区间(CI)。

研究结果表明,XGBoost的综合性能最佳。

同时,研究团队还尝试仅使用血常规或生化检测数据构建模型,结果发现血常规结合生化检测的模型性能最佳。

图2 基于临床血液样本的CVD疾病预测模型构建

(A) 69个CVD疾病预测模型的AUC

五种机器学习方法使用不同数据的ROC曲线:(B)血常规联合生化检测;(C)血常规;(D)生化检测

为了进一步细分各种心血管疾病,研究团队基于XGBoost构建了69个模型。

结果表明,这些模型的AUC范围为0.5256至0.9267。其中,与其他CVD模型相比,区分扩张型心肌病(DCM)模型的性能最佳(AUC:0.9267)。

这意味着这些模型可以帮助医生区分不同的心血管疾病(CVD)。

DCM的诊断主要取决于超声心动图和心脏磁共振,而不是血常规和生化检测。

图3 69个模型的AUC值

识别区分各心血管疾病的特异性指标

为了更好地了解50个特征对心血管疾病预测模型的贡献,并找到心血管疾病特异性指标,研究团队SHAP算法计算每个特征的贡献度。

由于机器学习的黑箱原理,很难解释每个特征的贡献,因此在本研究中引入了SHAP算法。

什么是黑箱原理?

假设你有一个黑箱,放进去肉(输入)会出来香肠(输出),放进去面粉(输入)会出来馒头(输出),虽然你不知道这个过程是如何发生的,但可以通过不断输入-输出总结出规律,或者说是模型。

黑箱理论也是如此,它是把研究对象作为一个未知的黑箱,通过观察对象的输入、输出,以此来认识对象的功能特性,以及探索其内部结构和机理的一种科学方法。

SHAP算法如何运用?

就像我们不知道黑箱内部如何运作,那些机器学习模型内部运作机制同样复杂且难以解释,Shap可以量化特征对预测结果贡献。

SHAP算法通过分析所有可能的特征子集组合来评估每个特征对预测结果的影响,这意味着Shap值可以帮助我们理解模型是如何决策,即何种特征对预测结果的影响最为显著。

在该项研究中,每个特征的SHAP值由shap python包(版本0.44.0)计算。

研究结果表明,K(钾)、TP(总蛋白)、ALB(白蛋白)和NBIL(间接胆红素)是区分心血管疾病患者和健康个体的通用指标,而RBC(红细胞计数)、K、DBIL(直接胆红素)和GLU(葡萄糖)是区分不同类型心血管疾病的通用指标。

图4 使用不同数据建立CVD疾病预测模型的前20个特征

红色代表高值,蓝色代表低值。如果SHAP值为正,则表示该特征对模型的积极影响,反之亦然。所有特性都按照重要性从上到下排列。

图5 分析不同CVD疾病的具体指标。

综上所述,研究基于血常规和生化测试数据开发了具有成本效益的大规模筛查模型。这些模型不仅能够区分心血管疾病患者和健康个体,还能够区分各种类型的心血管疾病。

此外,这项研究确定了每种心血管疾病独特的血液学和代谢特征,这可以为临床医生提供早期疾病预防和诊断的专业见解。

郑“叫兽”有话说

不过最后,郑“叫兽”告诉各位,阅读这篇文章时,有几个注意点。

第一,这篇文章的结论,如果用于开展心血管病发病的风险预测,这是不靠谱的。

你看哦,这些预测因子,血常规、生化常规,都是患者住院后采集的信息。也就是先有心血管病,再有血常规、血生化。这就明显违背了预测模型现有预测因子再有结局的基本原则。

因此,这篇文章拿健康人群比较,来预测心血管病的风险,不是那么可靠的。

第二,这篇文章,应该视为诊断预测模型的应用。因为它利用的血常规、血生化用于不同类型心血管的鉴别。

因此,预测模型最重的是什么?一定要区分你的模型的预后预测模型还是诊断预测模型。

基于横截面调查数据,往往开展诊断预测模型的研究。

在医学论文与统计分析公众号后台回复关键词“pdf”,即可获取原文!更多关于临床预测模型与机器学习统计服务,请联系郑老师团队,助教微信:aq566665。


评论