医学一区,IF=23.1的杂志《Blood》刊登了一篇机器学习预测模型的研究,题为:“Use of machine learning techniques to predict poor survival after hematopoietic cell transplantation for myelofibrosis”。
具体来说:研究者基于随机生存森林机器学习技术(RSF)构建总体生存(OS)预测模型;将其预测性能与基于四分风险等级的Cox回归评分、其他基于同数据集衍生的ML模型,以及国际骨髓移植研究中心(CIBMTR)评分进行比较。
结果表明,ML模型在可推广性及识别高风险患者方面均优于传统方法。
构建随机生存森林机器学习模型
本研究利用2005–2020年间5183例首次接受同种异体造血干细胞移植(allo‑HCT)的骨髓纤维化(MF)患者数据,评估机器学习(ML)模型对移植后总体生存(OS)的预测能力。
将整个队列按75%/25%的比例随机划分为训练集(n = 3887)和测试集(n = 1296)。
特征筛选:研究数据库共包含先前研究证明具有预后意义的52个变量。使用变量重要性估计进行降维,结合临床知识剔除冗余或相关性高的变量,得到最小化而有效的模型。
共包含10个关键预后变量。精简后随机生存森林机器学习技术(RSF)模型在训练集和测试集的C‑指数分别为0.599和0.623。
RSF模型优于其他机器学习模型
基于最终确定的10个变量,评估了三种补充方法:
斜随机生存森林(ORSF)
基于XGBoost的梯度提升生存树
深度神经网络生存模型(DeepSurv)
RSF在训练集和测试集中,C‑指数均优于三种补充方法。
RSF在两组数据上的稳定且优越表现,支持其作为后续分析的首选方法。
RSF模型优于Cox回归评分
为减少偏倚,本分析仅纳入在Cox回归评分所需变量上信息完整的患者子集(训练集n = 1773;测试集n = 566)。
在死亡风险预测中,ML模型在训练集和测试集中的C‑指数均高于Cox评分。Akaike信息准则(AIC)评分进一步验证了这一结果,表明其整体拟合度更佳。
值得注意的是,ML模型与Cox评分相比,将大批原属中-2风险组的患者重新分配至其他风险组。
ML模型识别移植后高风险者能力更强
ML模型的临床价值体现在其对患者进行风险分层的能力上。
值得注意的是,ML模型将25%的患者划入高风险组,远高于Cox评分的10.1%和CIBMTR模型的8.2%。
此外,ML模型不仅识别出更多的高风险患者,而且在训练集和测试集中均表现出一致且可推广的结果。
为了改进临床决策,研究者基于RSF模型开发了一个交互式网页应用(https://gemfin.click/ebmt)。
总之,机器学习技术能够显著提升MF患者在allo‑HCT中的风险分层,为个体化医疗奠定基础。
老郑小评
临床预测建模是一个非常实用的过程,其目的就是为了构建一个能够在实际中应用的预测工具。
成功的预测模型最基本的要求之一就是要有临床意义。
1.首先,它的出发点在于弥补现有模型的不足:“现有的allo‑HCT后总生存预测模型虽然在指导临床决策方面发挥了重要作用,但一些关键因素尚未纳入。此外,这些模型在精准识别移植后高危患者方面仍有提升空间。”
2.其次,预测指标成本低、方便是重要的考虑因素。研究者经过降维后,模型简化为10个关键变量,相较于52个变量构建RSF模型,仍在训练集和测试集中对OS与NRM均保持了显著的辨别能力。
3.目前绝大多数临床预测模型可以说是为了构建而构建,并没有完全发挥出其价值。临床预测模型更重要的应用是开发出能供实践的工具,例如基于网页的风险计算器。这篇文章,研究者基于RSF模型开发了一个交互式网页应用(https://gemfin.click/ebmt),直接输入,以方便模型的使用。
4. 在本文随机生存森林也不见得好哪去,毕竟C指数也不高,这就是数据决定了。不过0.6的C指数也能发《blood》杂志,有些惊讶。到底选择随机生存森林还是Cox。我觉得呀,当两者结果相当的时候,仍然优先选择Cox回归,作为广义线性方程,Cox回归结果更好解释,也更容易应用。
参考文献:
Juan Carlos Hernández-Boluda, Adrián Mosquera-Orgueira, Luuk Gras, Linda Koster, Joe Tuffnell,Use of machine learning techniques to predict poor survival after hematopoietic cell transplantation for myelofibrosis. Blood 2025; 145 (26): 3139–3152. doi: https://doi.org/10.1182/blood.2024027287