公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

中国学者开发糖尿病患者10年心血管疾病风险预测模型

Administrator
发布于 2025-08-15 / 48 阅读
0
0

2型糖尿病(T2DM)是一个全球性的重大公共卫生问题。多个国际糖尿病临床实践指南,均建议使用预测模型计算糖尿病患者的10年心血管风险

但证据表明,在西方人群中开发的模型,用于预测中国2型糖尿病患者在初级保健中所观察到的CVD事件方面是不准确的。研究者之前的系统综述显示,仍然缺乏针对中国2型糖尿病患者的10年心血管疾病风险预测模型。

近期,中国学者在期刊《Diabetes Obesity & Metabolism》(二区,IF=5.4)发表了一篇题为:“Development and validation of 10-year risk prediction models of cardiovascular disease in Chinese type 2 diabetes mellitus patients in primary care using interpretable machine learning-based methods”的研究论文,旨在填补研究空白,利用机器学习(ML)方法,为中国2型糖尿病(T2DM)患者建立初级保健管理的10年心血管疾病(CVD)风险预测模型。

(如果你需要全文,请在医学论文与统计分析微信公众号后台回复关键词“pdf”。如果您对预测模型感兴趣的话,来看看我们的机器学习与预测模型服务吧,一对一指导!详情可咨询助教,微信号:aq566665)

10年队列数据收集与处理

在这项为期10年的以人群为基础的回顾性队列研究中,纳入了2008年在公立初级保健诊所就诊、无心血管疾病或终末期肾脏疾病史的141416名年龄在18岁及以上中国T2DM患者,并随访至2017年12月。在9.75年的中位随访期间,32445名患者(22.9%)发展为心血管疾病。

本研究使用了在初级保健中常规可获得的潜在预测因子。除腰围(65.66%)、腰宽比(63.63%)和尿ACR(51.01%)外,所有预测指标的完成率均>80%。

对于缺失数据,研究者采用了一种新颖的基于机器学习的缺失数据插补方法GAIN(Generative Adversarial Imputation Nets ),在大数据临床研究中GAIN比链式方程多重插补(MICE)和missForest(一种基于随机森林的插补方法)更准确高效,最重要的是可以容忍高达50%的高缺失率

替换缺失值后,两种性别的开发和验证样本之间没有显著差异。

开发10年心血管疾病风险预测模型

由于女性和男性受试者的风险因素和这些因素的影响存在差异,因此针对两性分别开发了预测模型。在替换缺失值后,将研究数据按2:1的比例随机拆分为开发样本和验证样本两部分,以开发和验证性别风险预测模型。

1.机器学习构建预测模型

对于每个结果,使用极端梯度增强(XGB)建立了性别特异性风险预测模型。使用Shapley加性解释(SHAP)来评估ML模型中预测因子的重要性。并采用Boruta法选择显著性预测因子。

图1 基于机器学习建模的特征(预测器)重要性排序和特征选择

通过Boruta方法选择的所有显著预测因子都包含在初始ML模型1中。研究者绘制了每个重要预测因子与结果之间的关系,以可视化预测因子的影响。

由具有初级糖尿病医护经验的临床科学家,审查了所选预测因子的非线性和交互效应的临床相关性,以确保其临床意义。

图2 通过机器学习模型研究女性患者心血管疾病(CVD)的预测因子与相对风险之间的关系。

图3 通过机器学习建模研究男性患者心血管疾病(CVD)预测因子与相对风险之间的关系

图4 通过机器学习建模对心血管疾病(CVD)风险的配对预测因子的交互作用

排除具有可疑或不确定非线性影响的预测因子,建立第二个模型(ML模型2),分别用于男性和女性患者。

2.cox回归构建预测模型

女性和男性CVD患者的Cox风险预测模型中每个模型显示了显著变量的系数。

表1 女性患者10年心血管疾病的Cox风险预测模型(仅展示女性)

预测因素:
对于两性而言,具有统计学意义的
预测因素是年龄、吸烟状况、T2DM病程、收缩压、收缩压变异性、舒张压、BMI、TC / HDL-C比值、HbA1c变异性、尿ACR和eGFR。

在模型2中,

  • 腰围和HDL-C是女性患者的额外显著预测因子;

  • WHR和HbA1c是男性患者的额外显著预测因子;

  • 几个预测因子的二次项(如BMI²)和交互项(如年龄* SBP SD)显示出显著性。

模型3中的其他预测因子,包括胰岛素、降脂药物的使用和降压药物的使用,在两性中都是CVD的有统计学意义的预测因子。

预测模型验证

模型的验证在队列水平、亚组水平和个体水平上独立进行。

1.风险预测模型在队列水平的验证

将风险预测模型应用于整个验证样本,以检验其性能。使用Harrell’s C统计量测量的区分度,并绘制女性和男性患者的风险预测模型校准图。

√区分度

  • 在两性ML模型中,由于ML模型2更简单且在临床上更具相关性,因此选择ML模型2作为最终ML模型。

  • Cox模型中,无论男女,模型2和模型3的Harrell’s C统计量均显著高于模型1。模型2与模型3的Harrell’s C统计量在两性间的差异均不显著。因此,选择Cox模型2作为两者的最终Cox模型

表2 验证样本中风险预测模型的Harrell’s C统计量

总体而言,ML模型和Cox模型的判别性明显优于其他现有模型,ML模型的判别性优于Cox模型。

√校准度

而无论男性还是女性,ML模型的校准曲线最接近完美拟合线,显示出最佳的校准能力。

图5 对女性验证样本的CVD预测的机器学习(ML)模型、Cox模型和现有模型进行校准

2.风险预测模型在亚组水平的验证

随后,在年龄(<50岁、50 - 64岁、65-74岁、≥75岁)、合并症高血压和特征聚类(使用无监督ML方法识别)的亚组中对风险预测模型进行验证。

  • 在年龄亚组中,ML模型和Cox模型有相似的能力辨别能力和校准效果

  • 在有和无高血压亚组中,Cox和ML模型均具有良好的判别性和良好的校正性。不过Cox模型对无高血压亚组CVD风险的估计略高,而ML模型的校正曲线更接近理想拟合线,校正效果较好。

  • 使用聚类算法将验证样本中的患者分为7个稳定和可繁殖的亚组,分别为女性和男性患者。总体而言,ML模型在所有亚组中表现出比Cox模型更好的辨别能力。

3.风险预测模型在个体水平的验证

将模型应用于具有代表性的个体患者(原型)以检验其有效性。

建立风险预测工具

机器学习模型比Cox模型具有更好的判别性和校准性,因此研究选择机器学习模型作为中国初级保健T2DM患者10年心血管疾病风险预测模型的最终模型。

因此,选择性能最好的风险预测模型——机器学习模型,构建基于网络的计算中国2型糖尿病患者10年心血管疾病发生概率(风险)的计算器。

基于Cox模型的计算器也显示在同一网页上。

此外,由于基于回归的模型易于制定,因此基于Cox回归模型1开发了简化的列线图和彩色风险分层图,便于临床常规应用。

所有基于网络的计算器、预测因子和风险图表都可以向公众开放(https://www.hk-dm-cx-risk-engine.hku.hk/dm-complication)。

闲来郑语

由于基于回归的方法具有高透明度、良好的可解释性和较低的计算复杂性,已经成为风险预测模型开发的标准,但它们经常过度简化复杂的现实世界相关性,从而导致次优性能。

机器学习方法作为替代方法越来越受欢迎,因为它们具有更强的拟合数据和探索复杂交互的能力,从而带来更好的预测性能。

本研究使用机器学习方法开发了透明且可解释的模型,用于预测10年CVD风险。机器学习模型在队列层面、亚组层面和个体层面均表现出色优于Cox回归模型和其他现有模型

并且,本研究填补了研究空白,在选题和研究思路上,不失为一个好的借鉴!


评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明