公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

开源机器学习平台SurvivalML,包含公共数据挖掘10余种机器建模

Administrator
发布于 2025-07-02 / 3 阅读
0
0

2025年3月31日,中国学者在期刊《Cancer Letters》(医学一区,IF=9.1)上发表了一篇文章,推出开源平台SurvivalML,文章题为:“Efficient discovery of robust prognostic biomarkers and signatures in solid tumors”

SurvivalML平台整合了全球5大数据库、21种实体瘤的,268个数据集,共37964例样本,结合十种机器学习算法,系统性实现肿瘤预后标志物的跨队列筛选、模型构建与临床验证。

这篇文章利用SurvivalML平台发现新的预后标志物以及在肺腺癌和胶质母细胞瘤中构建的预后模型(如 CGPS 和其简化版 SCGPS),为癌症分层和临床决策提供了可靠的工具。

SurvivalML平台,作为一个开源的新工具,还鲜为人知,今天我们来为诸位介绍一下!

数据来源与整合标准化

SurvivalML平台涵盖癌症基因组图谱(TCGA)、基因表达图谱(GEO)、国际癌症基因组联盟(ICGC)、中国胶质瘤基因组图谱(CGGA)和ArrayExpress等5大平台,268个数据集;

21种实体瘤:肝癌(LIHC)、胶质母细胞瘤(GBM)、肺(LUAD/LUSC)等。

通过重新注释、标准化和数据清理过程,该平台旨在提高不同队列和平台之间的一致性,帮助减轻与技术和人群异质性相关的偏倚。

十大算法集成,两种建模模式

通过SurvivalML平台,能够开发和验证5个关键生存结局的预后模型:

  • 总生存期(OS);

  • 无病生存期(DFS);

  • 无复发生存期(RFS);

  • 无进展生存期(PFS);

  • 疾病特异性生存期(DSS)。

这些结局对于评估癌症患者的长期预后和指导临床决策至关重要。

SurvivalML平台结合了十种机器学习算法包括:逐步Cox回归、随机生存森林(RSF)、Lasso、Ridge回归、Cox boost、弹性网络(Enet)、广义增强回归建模(GBM)、生存支持向量机(SVM)、Cox偏最小二乘回归(plsRcox)和监督主成分(SuperPC)。

这种多样化的算法选择允许用户根据他们具体的研究目标和分析偏好来定制模型开发,确保对各种数据集和研究设计的灵活性和适应性。

SurvivalML平台中的两种建模模式可选择:自定义建模模块和自动化建模模块

自定义建模(Custom Mode):

用户上传基因列表(如已知通路基因),平台自动匹配训练集生成预后模型,支持特征重要性排序。

自动化建模(Auto Mode)(以LUAD为例筛选):

  • 单变量Cox回归初筛(p<0.05);

  • LASSO-Cox排除共线性基因;

  • 随机生存森林(RSF)等优化特征组合,输出最优基因集。

模型验证

针对每种癌症类型,将数据分为训练组和验证组,训练组用于构建生存模型,验证组用于评估其性能。

选择性能最好的算法是基于在所有验证共群中计算的平均一致性指数(C-index)。c指数是生存分析中的一个常用指标,用来衡量模型根据观察到的生存时间对预测风险评分进行排序的能力。它表示在随机选择的一对患者中,生存时间较短的患者预测风险评分较高的概率。具有相同生存时间或删除数据的配对被排除在外。c指数的范围从0.5(随机)到1.0(完全区分),用于评估模型区分高风险和低风险患者的程度。

为了综合评估模型的性能,SurvivalML还提供了:

  • Kaplan-Meier生存分析。

  • 随时间变化的受试者工作特征(ROC)曲线:1/3/5年生存预测精度(AUC)。

  • 校准曲线:预测生存率与实际观察值的一致性。

  • 决策曲线分析:模型在特定阈值下的临床净收益。

  • 内部验证:10折交叉验证(训练集内),评估过拟合风险。

  • 外部验证:使用至少2个独立队列(如TCGA+ICGC+GEO),计算C-index值。

实验验证

除了计算模型指标,作者还通过细胞实验(如siRNA干扰、细胞增殖、迁移和侵袭实验)及多重免疫荧光(mIF)对关键预后标志物(例如DCLRE1B、CGPS/SCGPS模型中的关键基因)进行了功能验证,确保模型具有生物学合理性和临床转化潜力。


这些特点使SurvivalML成为跨队列生物标志物发现和生存模型开发的强大工具,解决了癌症研究中可重复性和临床转化的关键障碍。

SurvivalML是一个免费的工具,它是使用Shiny、HTML5、CSS和JavaScript库构建的,可以直接在本地电脑使用该平台。处理过的数据以R.data格式存储,支持在R环境中快速访问。该平台允许用户根据特定的研究需求交互式地定制他们的分析。

它将传统需数月的数据清洗、建模与实验验证流程压缩至数天,特别擅长解析癌症类型特异性预后机制。

此外,SurvivalML集成了BEST的全套工具,包括细胞浸润分析、免疫治疗相关模块(如免疫调节剂分析和免疫治疗反应预测)和富集分析,为用户提供了一套全面的生物标志物探索工具。


评论