公众号
医学论文与统计分析公众号
扫码关注公众号

统计咨询
添加助教微信即可咨询
添加助教微信即可咨询

意见反馈
邮箱:17357190071@163.com
微信:aq566665

探讨影响因素,加入SHAP法解析关键影响因子。这个思路不错

Administrator
发布于 2025-07-18 / 55 阅读
0
0

【欢迎阅读浙中大郑老师撰写的统计科普文】

看了这么多基于机器学习构建预测模型的文章,相信大家现在对SHAP法已经不再陌生。

老郑最近又看到一篇有意思的文章,在常规logistic回归构建预测模型的基础上,进一步用SHAP法解释预测因子的重要性,让我们一起来看看他们是怎么做的!

原文阅读

2025年1月,顶级期刊Lancet子刊《eClinicalMedicine》(医学一区top,IF=9.6)发表了一篇题为:“The impact of war on people with type 2 diabetes in Ukraine: a survey study”的研究论文,研究团队旨在通过logistic回归和机器学习工具评估内在因素和战争相关因素对乌克兰2型糖尿病(T2D)患者的影响。

研究结果表明,战争对乌克兰T2D患者的健康产生了显著的负面影响,特别是在血糖控制方面。

(如果你需要全文,在医学论文与统计分析微信公众号后台回复关键词“pdf”。如果你对预测模型感兴趣,来看看我们的临床预测模型服务吧,一对一指导!详情可咨询助教,微信号:aq566665)

在该研究中,数据收集工作于2022年6月至2024年2月间进行,覆盖了乌克兰持续两年的战争期。

  • 通过计算战前与调查时HbA1c水平的差异(Δ值),并根据HbA1c变化幅度将所有受访者分为进展者(HbA1c水平较初始值增加超过5%)和稳定者(HbA1c水平稳定)两组,以全面评估各种因素对血糖控制的影响。

√单变量logistic回归评估影响因素

研究团队首先使用了单变量logistic回归分析来评估每个潜在影响因素与T2D进展之间的关联。

研究结果表明,战争相关因素显著影响了T2D患者的健康状况。具体体现在:

  • 军事行动、占领时长、国内流离失所和家庭成员受伤或死亡的经历增加了T2D患者HbA1c水平;

  • 缺乏定期血糖监测、内分泌学家咨询、不合理的饮食和缺乏体力活动也导致了T2D患者病程的恶化。

√多变量logistic回归构建预测模型

在进行构建多变量logistic回归模型之前,研究团队首先使用逐步回归(纳入标准为p< 0. 1,p >0. 2的变量被排除)筛选影响因素。

最终,研究团队纳入四个主要影响因素HbA 1c的初始水平、战争相关因素暴露的持续时间、超过1个月的占领和缺乏定期血糖监测用于构建多变量logistic回归预测模型。

该预测模型的卡方值为112.4(p < 0.001),AUC为0.69 (95% CІ 0.66–0.72),表明上述的影响因素对T2D进展风险的影响令人满意。

  • 同时,研究团队在根据约登指数(判别标准>0.464)选择模型阈值时,敏感性为85.4% (95% CI 82.1% ~ 88.4%),特异性为45.4% (95% CI 40.6% ~ 50.3%)。

老郑有话说:AUC小于0.70还能说满意?让我们具体情况具体分析。

卡方值为112.4(p < 0.001),表明模型整体上是显著有效的。这说明模型在区分T2D进展和非进展患者方面具有统计学上的显著性。

虽然AUC为0.69确实不算非常强的区分能力,但在特定的应用场景下,特别是考虑到其高敏感性和对早期筛查的重要性,这个模型仍然可以被认为是具有一定实用价值的。

它为后续研究和改进提供了一个基础,并在当前背景下展示了合理的预测性能。

机器学习构建预测模型

√特征筛选

基于单变量和多变量逻辑回归的结果,初步筛选了对T2D(2型糖尿病)进展有显著影响的因素作为模型输入特征。

  • 这些因素包括:初始HbA1c水平、BMI(及体重)、患者年龄、战争相关因素暴露持续时间、T2D持续时间、血糖监测情况,以及区域、战争相关经历(涵盖占领时长、家庭受影响情况和流离失所)

  • 在模型训练前,为确保特征间的可比性和模型稳定性,首先对连续变量(年龄、BMI、HbA1c)进行了分位数变换的归一化处理。

√模型构建

为进行模型训练和交叉验证,研究团队选择了H2O.ai的autoML库,用该库训练并交叉验证了多种算法,包括:梯度提升机(GBM)、极端梯度提升(XGBoost)、广义线性模型、极度随机树、分布式随机森林和深度学习。

√模型性能评估

经过10折交叉验证和AUC值评估,最终确定GBM模型表现最佳,在验证集中AUC达到0.69。

√模型可解释性

使用SHAP法生成条形图和蜂群图可视化特征的重要性及其对模型输出的影响。

综上所述,基于对乌克兰所有地区的调查,研究团队得出战争对糖尿病患者健康有显著的负面影响。其中,战争相关经历(涵盖占领时长、家庭受影响情况和流离失所)、无法监测血糖、不合理的饮食和缺乏体力活动以及缺少内分泌学家支持是T2D病程恶化的最重要因素。

【感谢阅读浙中大郑老师团队撰写的统计文章】


评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明