大多数的影响因素研究借助传统回归方法探讨影响因素,这是众所周知的。
近期逐渐出现一些文章,用机器学习+SHAP分析来做影响因素研究。
这或许是一种新的思路,可堪临床护理研究的新范式。
今天我们分享一篇中国学者的文章,助大家理解机器学习+SHAP分析在影响因素研究中的应用,推荐阅读。
2025年6月,深圳市康宁医院学者采用机器学习方法识别抑郁青少年智能手机成瘾的关键风险因素,并利用可解释的SHapley加性解释(SHAP)方法提升模型可解释性,发表在心理学一区杂志《Behaviour Research And Therapy》上。
为何另辟蹊径?
1.研究背景
①目前已经有多种理论模型可解释智能手机成瘾(SA)的成因。
②其中,I‑PACE理论模型被引用最广,认为SA源于易感因素、中介和调节变量的共同作用。
③基于此,本研究将在抑郁青少年群体中尽可能多地收集并分析SA的预测因素。
2.预测因素太多:研究者基于既往文献与I-PACE理论框架选取了35个预测变量。
3.传统统计方法面临显著局限
①以往对SA预测因子的研究主要采用传统的假设驱动的统计方法;
②然而,随着潜在变量数量的增长,这些传统方法面临着显著的局限性;
③特别是在根据它们的相对重要性对众多预测因子进行有效排序和捕捉这些变量之间相互作用的复杂性方面有显著局限。
4.机器学习+SHAP分析方法可解此困局
①机器学习在分析高维数据和识别预测变量之间复杂、非线性交互方面具有突出优势——这往往是传统统计方法难以或无法胜任的任务。
②此外,机器学习技术通常具有更高的预测精度,因而尤其适合研究诸如SA这类多维度心理概念。
③SHAP分析通过量化各特征对模型预测的边际贡献,显著提升了透明度,不仅弥补机器学习“黑箱”模型可解释性不足,还使得各预测因子的相对重要性更加清晰可见。
5.与理论模型相结合弥补不足
现有基于机器学习的研究多为纯数据驱动,缺乏坚实的理论框架,限制了研究结果的可解释性与实践应用价值,本文与理论模型相结合弥补机器学习数据驱动的不足。
机器学习预测抑郁青少年SA风险因素
研究者运用机器学习方法识别SA的重要预测因子,并借助SHAP方法进一步阐明与解释各预测因子的相对重要性。
总体来看,随机森林和XGBoost在AUC、准确率和F1分数等多项关键指标上表现优于其他模型。
基于SHAP方法的特征重要性排名见下图。该排名根据各特征对模型输出的平均影响程度排序,数值越高表示贡献越大。
在模型A、B、C中,“情绪导向应对”“反刍思维”“校园欺凌”始终位列前三,体现出这些特征在不同算法中的稳定性;“心理韧性”“社会支持”也位于较前位置。
模型D中略有差异,“年龄”升至第三位,“校园欺凌”则紧随其后排名第四,表明年龄在该模型中影响上升,但校园欺凌依然是重要预测因子。
除此之外,文章还基于I‑PACE模型,通过中介—调节分析深入探讨这些关键预测因子之间的复杂交互,以丰富理论与实践意义。不做过多赘述,感兴趣的朋友可以看一下原文。
这篇文章思路清晰,前因后果讲得清楚,值得阅读和学习!
不过这里提醒各位,这种关联与预测的分析,其实不算是因果推断,即便是认为独立的影响因素,也不应该认为是一种因果分析。
参考文献:
Zhou Y, Pei C, Yin H, Zhu R, Yan N, Wang L, Zhang X, Lan T, Li J, Zeng L, Huo L. Predictors of smartphone addiction in adolescents with depression: combing the machine learning and moderated mediation model approach. Behav Res Ther. 2025 Jun;189:104749. doi: 10.1016/j.brat.2025.104749.
当然,如果您也想模仿这篇文章的思路,郑老师团队可以帮您实现,不妨联系我们郑老师统计团队。