公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

浙大学者开发结直肠癌发病预测模型,发文Nature子刊

Administrator
发布于 2025-08-13 / 65 阅读
0
0

在该项研究中,通过将血浆蛋白质组学与多基因风险评分(PRS)和QCancer-15进行整合分析,成功验证了其在提升风险分层精确度及对CRC筛查风险适应起始年龄的推导的临床意义,进而可能为CRC筛查的决策流程提供更加有力的支持。

(如果你需要全文,请在医学论文与统计分析微信公众号后台回复关键词“pdf”。如果您需要进一步的了解随机对照研究如何进行数据分析,不妨看看我们临床试验设计与数据分析培训班!详情可咨询助教,微信号:aq566665)

结直肠癌(CRC)是目前临床上最常见的恶性肿瘤之一,也是造成癌症死亡的第二大原因。据统计,结直肠癌的预后与早期诊断密切相关,多数早期诊断结直肠癌愈合良好,5年生存率可达90%,而晚期诊断生存率则不足10%。

在先前的研究中,研究者发现与CRC相关的蛋白标志物可用于区分CRC患者,同时遗传和公认的非遗传因素(例如,QCancer-15 )在CRC发病率中也起重要作用。

在这项研究中,研究团队:

  • 首先基于病例对照研究和前瞻性人群队列的两阶段策略来识别和验证与CRC相关的蛋白质组学特征,以构建蛋白质风险评分(ProS)。

  • 构建了QCancer-15风险评分、多基因风险评分(PRS),并结合关键的蛋白质生物标志物开发CRC发病预测模型。

  • 最后,评估联合模型的预测性能和潜在的临床效用,包括净收益、风险分层和CRC个性化初始筛查年龄。

主要结局:CRC诊断,定义为结肠和直肠的恶性肿瘤。

图1 研究流程

病例对照研究包括:浙大附属二院的150例新诊断的CRC病例(年龄范围:44-89岁)和50例性别和年龄匹配的对照);

前瞻性人群队列则是UKB数据库,共纳入52,231名年龄39-70岁2006年至2010年招募的来自UKB具有蛋白质组学测量的参与者,其中包括731例CRC病例以及51,500例对照。

结直肠癌(CRC)预测模型

研究团队结合ProS、PRS和QCancer-S开发了一个综合模型,在训练队列和验证队列中,综合模型(QCancer-15+PRS+ProS)的C统计量的表现均显著优于仅使用QCancer-15评分的模型(训练队列为0.79对0.71,验证队列为0.75对0.69)。

图2 基于QCancer-15风险评分(QCancer-S)、多基因风险评分(PRS)、蛋白质风险评分(ProS)和组合模型的结直肠癌(CRC)预测模型评估

综合模型在风险分层方面表现出色

在整合ProS、PRS和QCancer-S后,研究团队将综合模型和组合风险评分 (ComS) 的组成部分分为三组(低风险组、中风险组和高风险组)。

结果发现,与中风险组相比,高ProS(HR: 1.67)、PRS(HR: 2.71)、QCancer-15(HR: 1.91)的CRC风险增加,但高ComS组(HR: 3.27)的CRC风险增加更显著,在训练队列和验证队列中均有类似趋势(分别为2.94和4.27倍)。

这表明综合模型能显著提升风险分层的精度,帮助临床医生更早识别高风险人群,进行针对性筛查和干预。

此外,根据10年累计风险估算,研究建议为不同风险组设定个性化的筛查起始年龄,其中:

  • 高PRS组的受试者应在41岁开始筛查,而低PRS组的筛查起始年龄为60岁以上;

  • 高ProS组的受试者应在46岁开始筛查,而低ProS组的筛查起始年龄为57岁;

  • ComS显示,高风险组的受试者建议在40岁之前开始筛查,而低风险组则可推迟至60岁以后再进行筛查。

图3 基于(a) QCancer-S、(b)PRS、(c)ProS和(d)ComS的风险组间Kaplan-Meier累积发生率曲线

图4 基于(e) PRS、(f) ProS和(g) com的风险组的参与者的年龄特异性CRC的10年累积风险

虚线表示在特定年龄的10年累积风险曲线中,虚线表示一般人群在50岁时的风险(即现行指南建议对平均风险成人进行筛查的起始年龄)。

综上所述,研究团队通过开发结合蛋白质组学、多基因评分和传统非遗传风险因素的结直肠癌风险预测模型,显著提高了风险预测的准确性。综合模型不仅能够有效识别高风险人群,还为个性化筛查提供可能,特别是在筛查起始年龄和干预时机的选择上,具有不错的临床应用潜力。

统计学方法

1.蛋白质组学特征的识别和验证:在基于病例对照设计的发现阶段,

  • 使用主成分分析和Pearson相关系数矩阵来识别异常样本(补充方法)

  • 在去除异常样本后,基于‘ limma ’ package29进行蛋白质组级差异表达分析

  • 采用FDR进行多重检验校正,以FDR < 0.05为显著性水平。

  • 对于处于发现阶段的显著蛋白(FDR < 0.05),我们进一步采用Cox比例风险(CPH)模型评估其与验证队列中CRC发病率的关系。

在验证阶段,作用方向一致且P值显著(P < 0.05)的蛋白视为验证成功。

2.构建风险预测模型:

  • 通过LASSO-Cox回归,在通过两阶段测试的蛋白质中进一步选择了CRC相关蛋白质特征,总共保留15个蛋白质。

  • 使 caret 包,以7:3的比例将UKBB参与者随机分为训练和验证组。

  • 基于QCancer-S、QCancer-S(包括地理区域)、2 prs或ProS分别建立结直肠癌风险预测模型,使用CPH模型在培训队列中进行五倍交叉验证。

  • 接下来,将表现最佳的QCancer-S、ProS和PRS组合,构建预测结直肠癌发病风险的联合模型。

  • 这些模型还通过性别分层、肿瘤部位(结肠或直肠)、肠癌筛查(是否)和CRC家族史(是否)进行评估。

3.模型性能与潜在临床应用评估:该模型的性能评估使用了广泛的指标,包括接收者-操作特征曲线下的面积(AUC,称为c统计量)、相对风险校准、净收益、风险比估计、风险分层、风险进展期和10年CRC累积风险。

  • 在训练队列中,采用c统计量(95%置信区间,CI)进行五倍交叉验证,并在验证队列中进一步评估这些模型的判别性。

  • 采用自举法,采用500个分层自举重复,比较不同模型的性能差异。

  • 使用“riskRegression”软件包绘制校准曲线,以直观地描述基于CPH模型的观测事件率与预测风险之间的一致性。

  • 建立QCancer-S、PRS和ProS的列线图,用于预测5年、10年和15年无结直肠癌的预后。

  • 为了评估预测模型对推荐的CRC干预措施(如筛查)的潜在临床效用,使用“ggDCA”包进行决策曲线分析

4.风险比估计及风险分层分析:

  • HRs首先通过CPH回归得出QCancer-S、PRS和ProS每SD增加的总体、性别特异性和部位特异性CRC风险。

  • 然后,根据QCancer-S、PRS、ProS和ComS(补充方法)在当前UKBB人群中的分布,分别分为q1最低、Q2、Q3和q4最高的四分位数。

  • 由于10年累积风险曲线趋势相似,进一步将风险评分分为低、中、高3组(补充图9)。

  • 具体而言,以普通人群10年累积风险为参照,将Q3中风险与普通人群相似的参与者划分为中风险组,将Q1和Q2中风险低于普通人群的参与者划分为低风险组。Q4的参与者被划分为高危组。

  • 以中剂量组为参照,估计分类变量的hr (95% ci)。

  • 采用Kaplan-Meier曲线和log-rank检验评估风险评分的风险分层值。

5.所有统计分析均为双侧检验,并使用R版本4.2.2进行。

本研究内容非常丰富,研究本身也很具有临床意义。并且设计严谨,研究步骤展示的非常详细,逻辑清晰,把整个研究都讲清楚了,推荐大家去看一下原文!


评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明