最近,老郑看了很多文献,发现现在预测模型的文章,大多数都在用机器学习来建模和验证了,并且,可以看出,文章的题目已经不再强调“列线图”,现在文章多强调“SHAP”法。
举几个例子。
图1 使用环境挥发性有机化合物暴露识别美国人群心血管疾病风险:基于SHAP方法的机器学习预测模型
图2 糖尿病患者ICU住院期间压力损伤发生预测模型——XGBoost机器学习模型可基于SHAP进行解释
图3 基于SHAP的老年心力衰竭患者1年全因再入院风险预测建模:特征选择和模型解释
图4 解释机器学习模型对糖尿病血糖预测的重要性:使用SHAP进行分析
在机器学习领域中,模型的可解释性一直备受关注,是一个重要的课题。尽管复杂的模型如深度神经网络和集成模型(如XGBoost、LightGBM)在预测性能上表现优异,但通常被视为“黑箱”,难以解释其内部决策过程。
然而,SHAP(SHapley Additive exPlanations)是一种解决这一问题的工具,用来解释机器学习模型预测结果的方法,由Scott Lundberg和Su-In Lee于2017年提出。它基于博弈论中的Shapley值概念,为模型的每个特征分配重要性值,从而解释模型的预测过程。
SHAP支持多种机器学习框架,如XGBoost、LightGBM、sklearn、TensorFlow等,使用SHAP时,通常包括以下步骤:
训练模型:使用数据集训练机器学习模型
计算SHAP值:使用SHAP库计算每个特征的SHAP值
可视化与解释:通过可视化方法展示SHAP值,进行模型解释
在文章中的展示图如下:
1.模型中变量的SHAP值排序
2.摘要图(Summary Plot)
3.力图(Force Plot)
4.依赖图(Dependence Plot)
SHAP作为机器学习模型的解释工具,已经是一项重大突破,通过量化特征对预测的贡献,提供可视化功能。
我们也要跟得上时代的脚步,用上新的方法!