生存分析是临床研究论文中常用的统计学方法,尤其是在肿瘤临床研究领域,生存时间是评价恶性肿瘤治疗效果的重要指标,生存分析在肿瘤临床研究论文中占有重要地位。
但是,《中国肿瘤》杂志编辑戴丽琼在近年的编辑出版工作实践中,发现投稿论文中生存分析相关内容存在的问题比较多,严重影响了论文的整体质量。
因此,编辑戴丽琼发表了这篇生存分析写作建议,旨在提高其对生存分析相关统计方法使用、统计结果解读的水平,规范生存分析报告的写作。
生存分析的内涵
生存分析是一系列用来处理感兴趣事件发生时间的统计方法的总称。生存分析有狭义和广义两个层次。
随着所研究的问题从狭义的生存分析拓展到广义的生存分析,生存分析的统计方法得到了更广泛的应用。
生存分析涉及的统计学方法
生存数据主要观察指标包括终点事件及生存时间,在论文中应该对生存分析的观察指标给出明确的定义。随访是收集生存资料的主要方式,随访时间应该足够长,以超过中位生存时间为宜,这样可以保证有一半以上的患者观察到最终结局(死亡)。
获得了生存数据之后,首先,要根据数据特征正确选择和使用适宜的统计方法。其次,在论文中,作者应该对统计分析过程进行充分和必要的说明,以便同行和读者了解,进而客观评价研究结果和结论的正确性和可信度。
1.参数方法与非参数方法
2.寿命表法与Kaplan-Meier法
寿命表法与Kaplan-Meier法是对生存时间分布进行描述性统计、计算生存时间和生存率的统计方法。
3.Log-rank检验和Wilcoxon 检验
Log-rank检验和Wilcoxon 检验是组间生存率比较的常用检验方法,但两者的使用条件略有差异。
实际应用中常同时采用这两种方法进行显著性检验,当两者结果一致时,可认为近期与远期疗效差异均有统计学意义。
4.单因素分析与多因素分析
单因素分析联合多因素分析,常用来探讨肿瘤患者生存的影响因素。
具体怎么做呢?
5.Cox模型回归分析
Cox比例风险模型由英国统计学家D.R.Cox于1972年提出,它对各参数进行估计时并不依赖特定分布的假设,所以为半参数回归模型。
6.删失数据的处理
生存分析报告的撰写建议
经过统计分析之后,就要撰写生存分析报告,作者需要掌握表达和展示生存分析结果的技巧,明确需要展示哪些内容,有哪些要注意的问题,从而完成高质量的论文写作。生存分析报告应该包括以下主要内容。
1.研究样本的确定和终点事件及生存指标的定义
生存分析报告需要具体说明:
患者的入组和排除标准;
研究样本是如何得到的(例如一段时间某医院收治的符合入组条件的全部患者,或者在全部患者中进行随机抽样等);
收治患者的时间和医院;
样本量及患者的性别、年龄等基本特征。
明确说明研究的终点事件是什么,是肿瘤复发、转移,还是患者死亡。
采用的生存指标是什么,并给出确切定义。
2.随访情况和统计学方法的描述
由于随访质量决定了生存数据的质量,对生存分析结果有重要影响,因此,应该在论文的方法中说明从事随访工作的人员(是否专业,是否经过了统一培训)、随访方式、随访时间、随访内容、失访情况等,以便读者了解生存资料的获取过程,评估生存数据的质量,其中比较关键的是随访时间和失访情况。
统计学方法中应说明进行生存分析使用的统计软件,采用的具体统计方法和检验水准。如有样本量的变动应该明确说明。
3.生存分析结果的描述和组间比较
生存时间和生存率是生存分析的基本统计指标和结果,根据研究需要可以选择总生存时间、无病生存时间、无进展生存时间、总生存率、无病生存率、无进展生存率等指标。这些生存指标的数据结果应该在展示生存分析结果的开始即进行交代,有助于读者对样本人群的生存情况有一个基本的了解。
生存时间数据通常是非正态分布的,且有删失数据,平均生存时间并不能恰当地反映研究对象的生存时间分布,一般用中位生存时间进行统计描述。
生存率通常采用1、3、5、10年生存率,但需要根据癌种的总体预后情况加以选择,像胰腺癌、胆管癌等预后差的癌种,适于计算1年、3年生存率,而甲状腺癌、乳腺癌等预后好的癌种,适于计算5年、10年生存率。
还可以绘制生存曲线。同时要说明生存率的计算方法。
较多情况下还需要对组间生存时间和生存率进行比较,需要说明组间比较采用的统计方法和统计量、P值。还可以绘制各组的生存曲线,以直观展示各组患者的生存情况。
4.预后影响因素分析
(1)变量及其赋值规则
应该明确说明预后影响因素分析纳入了哪些因素(自变量),在研究样本中,这些因素的分布情况如何。由于变量的赋值与统计分析结果以及统计分析结果的解释密切相关,因此需要在文章中对变量的赋值规则进行必要的说明。
另外,采用的具体生存指标(因变量)是什么,总生存时间、无病生存时间,还是无进展生存时间等也应该说明。
(2)单因素分析结果
按照设定的一类错误发生概率(α=0.10或0.15),可以采用Log-rank检验或单因素Cox模型回归分析筛选出与生存有关的因素。应该展示全部因素及其相关的统计分析结果。
(3)多因素分析结果
将单因素分析筛选出的与生存有关的因素,以及根据临床经验认为与生存有关的因素,纳入Cox模型进行多因素回归分析。多因素Cox模型回归分析结果一般要包括β、x̄±s、Wald χ2值、P值、风险比(hazard ratio,HR)及95%置信区间(confidence interval,CI)。
要注意区分变量和水平(分类属性)。例如:性别是一个变量,其取值可以是男性,可以是女性,因此男性或女性是性别这一变量的两个水平(分类属性)。
另外,要区别“影响因素”和“危险因素”,前者不体现影响的方向性,后者表明了影响的方向。
示 例
例如:如果Cox模型多因素回归分析结果显示,HR=0.683,HR的95%CI为0.493~0.831,经常有作者在文章中有类似这样的表述:
“女性是**疾病患者总生存的独立危险因素”,这种表述就存在上述两个问题,一是误将水平当做了因素,二是将保护性因素表述成了危险因素。
比较妥当的表述最好分为两步,“性别是**疾病患者总生存的独立影响因素,女性患者的总生存时间长于男性”。
HR:相当于是考虑了生存时间的相对危险度(relative risk,RR),其意义与RR相同,均反映暴露相对于非暴露对阳性事件发生造成的影响,主要用于生存分析。
Cox模型回归分析就得到HR:
若HR=1,说明暴露因素对于终点事件(死亡)的发生无影响;
若HR>1,则说明暴露因素增大了终点事件(死亡)发生的风险;
若HR<1,则说明暴露因素减小了终点事件(死亡)发生的风险。
控制混杂因素:在肿瘤临床研究中,如果不是泛泛探讨肿瘤患者远期生存的影响因素有哪些,而是具体探讨某一项因素x对患者远期生存的影响时,其他因素就成为了混杂因素。如果仅将因素x作为自变量代入Cox模型进行单因素Cox模型回归分析,得到的结果就是未控制混杂因素的,其结果往往不能反映因素x对肿瘤患者远期生存的真实影响。
多元线性回归分析、多因素Logistic回归分析和多因素Cox模型回归分析等这些多因素分析方法是控制混杂因素的常用统计学方法。在探讨肿瘤患者预后影响因素的时候,通过多因素Cox模型回归分析就得到了不受混杂因素影响的因素x与患者预后的独立关系。这种情况下,多因素Cox模型回归分析结果可以采取另外一种表述方式。
示 例
例如,一项主要探讨术前系统免疫炎症指数(systemic immune-inflammation index,SII)与直肠癌患者预后关系的研究中,将SII按照最佳界值分为高SII和低SII两个水平。
单因素Cox模型回归分析显示,SII对直肠癌患者总生存的HR=3.889,95%CI为2.662~5.680。
多因素Cox模型回归分析显示,有统计学意义的因素包括:
SII(HR=2.949, 95%CI为1.799~4.985)
年龄(HR=2.221,95%CI为1.526~3.231)
TNM分期(Ⅲ期:HR=4.425,95%CI为1.848~10.596)
分化程度(HR=1.630,95%CI为1.074~2.474)
及术后辅助放化疗(HR=2.123,95%CI为1.506~2.992)
可见,控制了混杂因素后SII对直肠癌患者总生存的影响发生了变化。
多因素Cox模型回归分析的结论可表述为“术前SII是直肠癌患者总生存的独立影响因素,控制了患者年龄、TNM分期、分化程度及术后辅助放化疗等混杂因素后,高SII患者的死亡风险是低SII患者的2.949倍”。
(4)依据多因素分析结果下结论
预后影响因素分析经过单因素和多因素分析得到了不同的结果,通常多因素分析有统计学意义的因素数量会少于单因素分析。最终得出结论时,哪些因素与预后有关,这些因素与预后关系的密切程度如何,对生存时间的贡献有多大,应该根据多因素分析结果下结论,而不必受单因素分析结果干扰。
有些作者期望得到阳性结果的因素,恰恰单因素分析时有统计学意义,而多因素分析无统计学意义,作者在撰写论文时,会刻意强调单因素分析的阳性结果,而忽略多因素分析的阴性结果,这样的表述是不客观和严谨的。不管是作者还是编辑都应该对此方面的表达严格把关。
综上所述,生存分析研究在肿瘤临床研究中占有重要地位,生存分析研究报告的质量对于肿瘤临床研究论文的质量有重要影响。作者在论文撰写中要将生存分析应该包括的内容系统和充分地加以呈现,避免发生常见的问题。期刊编辑可以对照以上所述条款,在论文审稿和编辑加工中做好文章的质量控制工作,以进一步提高论文的质量。
参考文献:戴丽琼. 影响肿瘤临床研究生存分析质量的主要问题及生存分析报告写作建议[J]. 中国肿瘤,2025,34(8):660-665.