公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

一区top文章logistic回归模型的协变量使用三种方法筛选

Administrator
发布于 2025-07-24 / 12 阅读
0
0

心血管疾病(CVD)是糖尿病患者的主要死亡原因之一,尽管指南强调同时控制血糖和心血管风险因素的重要性,但在这类人群中,CVD风险仍然很高。

先前研究表明,胰岛素抵抗(IR)指标与CVD和糖尿病显著相关,但估计葡萄糖处理率 (eGDR) 指数与糖尿病患者CVD及其亚型风险的关联有待进一步验证。

2025年1月13日,北京协和医学院的学者用NHANES数据库,在期刊Cardiovascular Diabetology(医学top一区,IF=8.5)发表题为:“Association between estimated glucose disposal rate and cardiovascular diseases in patients with diabetes or prediabetes: a cross-sectional study”的研究论文。

在该项研究中,研究团队通过构建logistic回归模型,探究eGDR指数与糖尿病前期或糖尿病患者心血管疾病(CVD)及其亚型冠状动脉疾病(CAD)、充血性心力衰竭(CHF)和中风风险之间的关联,其中,模型调整的变量是三种机器学习筛选出的重要特征。

(在公共数据库与孟德尔随机化微信公众号后台回复“ 原文”即可获得文献PDF等资料。想用NHANES发文,看看这个可一键提取和分析数据的NHANES  Online平台!如感兴趣请联系郑老师团队,微信号:aq566665)

研究团队基于美国国家健康与营养调查(NHANES)数据库1999-2016年的数据,经过纳排,最终纳入了10,690名处于糖尿病前期或患有糖尿病的参与者,平均年龄为55.60岁,46.48%为女性。

图1 研究流程图

主要研究结果

研究团队通过单变量和多变量logistic回归分析发现,随着eGDR指数的增加,参与者患CVD及其亚型的风险均显著升高。

表1 参与者eGDR指数与CVD及其亚型患病风险的关联

模型1(基本模型):无调整;

模型2(最小调整模型):调整了年龄、性别和种族;

模型3(完全调整模型):调整了通过SVM-RFE、XGBoost和Boruta算法筛选出的重要变量

机器学习算法筛选协变量

模型3(完全调整模型)调整的协变量来源于三种机器学习算法(SVM-RFE、XGBoost 和 Boruta 算法)各自筛选的前10个特征。

图2 三种机器学习算法

(A)Boruta算法,其中绿色框表示重要变量,红色框表示不重要的变量,黄色框表示可能重要的变量;

(B)Boruta算法的迭代过程;

(C)XGBoost算法,排序越小,变量就越重要;

(D)SVM-RFE算法,一个变量的排序越大,它被删除的时间就越晚

同时,研究团队还绘制了eGDR指数与参与者患CVD及其亚型风险的RCS曲线,结果均未发现存在非线性关联。

研究团队还进一步通过各种指标(如ROC曲线、校准曲线、DCA曲线等)评估模型的预测性能,结果均表明,完全调整模型的性能优于基本模型。

图3 (A)RCS曲线;(B)ROC曲线;(C)校准曲线;(D)DCA曲线

表2 净重新分类指数(NRI)和综合判别改善指数(IDI)

此外,研究团队还比较了eGDR指数与其他IR指标(包括TyG, TyG-WC, TyG-WHtR, HOMA-IR, HOMA-β, TG/HDL, QUICKI and METS-IR)之间的性能差异,结果表明,在基本模型中,eGDR指数的ROC曲线下面积(AUC)显著高于其他IR指标,而在完全调整的模型中略高。

而亚组分析的结果也与上述一致,表明结果的稳健性。

综上所述,在糖尿病或糖尿病前期人群中,eGDR指数与心血管疾病及其亚型之间存在负线性关联。并且在调整过经机器学习算法筛选出的变量后,预测模型更佳。此外,与其他IR替代指标(包括TyG、HOMA-IR、METS-IR等)相比,eGDR指数在评估与CVD及其亚型相关性方面表现更佳。

统计知识点汇总

一、 数据来源

美国国家健康与营养调查(NHANES)数据库:

NHANES数据库是一项旨在评估美国成人和儿童的健康和营养状况的研究计划。该数据库涵盖了多种健康指标的数据收集和分析。

二、研究设计思路:

P(Population)参与者:从NHANES数据库1999-2016年的数据中,纳入的10,690名糖尿病或糖尿病前期的参与者;

E(exposure)暴露因素:估计葡萄糖处置率(eGDR)指数;

O(outcome)结局:心血管疾病(CVD)及其亚型,包括:冠状动脉疾病(CAD)、充血性心力衰竭(CHF)和中风;

S(Study design)研究类型:横断面研究。

三、统计方法

√机器学习算法筛选协变量

在这篇文章中,学者使用了三种机器学习方法(SVM-RFE、XGBoost和Boruta算法)来筛选与CVD及其亚型相关的重要变量。

SVM-RFE

  • 支持向量机(SVM):SVM是一种用于分类和回归的监督学习模型。它通过在特征空间中找到一个最优超平面来区分不同类别的数据点。SVM的核心思想是最大化两个类别之间的间隔,从而提高分类的准确性。

  • 递归特征消除(RFE):RFE是一种特征选择方法,通过递归地训练模型并移除最不重要的特征来选择最重要的特征。

XGBoost

XGBoost 是一种高效的梯度提升决策树(GBDT)算法的实现,其核心思想是通过加速树的构建过程,减少计算时间,避免过拟合,并提高模型的准确性。

Boruta算法

Boruta算法是一种基于随机森林的特征选择方法,通过引入“影子特征”(即随机生成的、与原始特征具有相同分布的噪声特征)来评估特征的重要性。

√logistic回归模型

本文中,研究团队通过单变量和多变量logistic回归分析,构建了3个模型来探究eGDR指数与CVD及其亚型患病风险的关联,并比较不同模型的预测性能。

  • 模型1(基础模型):未调整任何协变量;

  • 模型2(最小调整模型):调整了年龄、性别和种族;

  • 模型3(完全调整模型):调整了通过上述三个机器学习算法(SVM-RFE、XGBoost和Boruta算法)筛选出的重要变量。

此外,研究团队还通过多种评估方法,全面评估3个logistic回归模型模型的预测性能,确保研究结果的可靠性和实用性。

√本文评估模型性能的指标汇总

  • ROC曲线

用于评估模型的区分能力,通过比较不同模型的ROC曲线下面积(AUC)来评估哪个模型性能更好。通常,AUC值更高的模型被认为具有更好的区分能力。

  • C统计量

C统计量是AUC的量化指标,取值范围为0.5到1。值越接近1,表示模型的预测能力越强。

  • 净重新分类指数(NRI)

NRI用于评估模型在重新分类方面的改进能力,即模型在预测风险分层时的准确性。它衡量新模型相对于旧模型在风险分类上的改进程度。

  • 综合判别改善指数(IDI)

IDI用于评估模型在整体区分能力上的改进,可以衡量新模型在预测事件发生概率上的提升程度。

  • 校准曲线

校准曲线用于评估模型的校准能力,即模型预测概率与实际发生率的一致性。理想情况下,校准曲线应接近45°对角线,表示预测概率与实际发生率高度一致。

  • 决策曲线分析(DCA)曲线

DCA曲线用于评估模型的临床净效益,即模型在临床决策中的实际应用价值。它考虑了不同阈值概率下模型的净效益,帮助判断模型在临床实践中的适用性。

√限制性立方样条(RCS)曲线

在本文中,研究团队绘制了两次RCS曲线:

  • 评估eGDR指数与CVD及其亚型的非线性关系;

  • 探究其他胰岛素抵抗指标与CVD及其亚型的非线性关系。

√亚组分析

在本文中,研究团队根据年龄、性别、BMI、糖尿病状态等因素对患者分层,进行了亚组分析,探讨eGDR指数与心血管疾病之间的关联在不同亚组中的差异,揭示潜在的交互作用。

这种将机器学习算法筛选出的重要特征作为协变量纳入模型的方法,确实能让研究结果更加准确,使模型更具代表性,是一种极具参考价值的研究思路!


评论