公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

审稿人:仅仅报告P值是不够的,请提供主要结局的效应量

Administrator
发布于 2025-08-08 / 5 阅读
0
0

在研究中,具有统计学意义的发现打开了在同行评审期刊上发表的大门。

但是统计学显著性并不能说明这些发现是否有力、有用或具有临床重要性。为了超越统计显著性,研究者需要在他们工作的分析阶段评估效应量大小。

效应量 (Effect Size) 是一种衡量统计分析中不同组别间差异大小的指标,能够帮助理解变量之间的关系或实验干预的实际效果。

近期,期刊《Journal of Oral Rehabilitation》发表了一篇题为:“Statistical significance, clinical importance and effect sizes: Enhancing understanding of a study's results”的Review,采用说明性文章的形式,探讨了统计显著性、临床重要性和效应大小之间复杂而微妙的关系。

下面,摘录文中部分内容与诸位做个分享!

(如果你感兴趣,我们提供原文,在医学论文与统计分析微信公众号后台回复关键词“pdf”即可获取。)

在研究的计划阶段,可以通过以下方式增强获得统计显著结果的可能性。

  • 选择一个更宽松的α水平(例如从α =0.01到α =0.05)。增加I类错误的可能性也会增加获得统计显著结果的可能性。

  • 计划使用大样本量。大样本量的存在也将降低发生第二类错误的可能性,并将提高结果的精确度(即平均差异的置信区间将“更紧”)。读者可能对使用大样本量的研究更有信心,但也可能矛盾地表明,研究获得的效应大小可能很小。

需要注意的是,在得到的概率水平是p<0.001而不是p<0.05的情况下,研究者能声称这比他们预期的效果更强吗?

答案是否定的。

解释:更严格的统计显著性水平意味着,研究者可以更有信心地认为这些值的差异不太可能是偶然造成的。严格的统计显著性水平(例如p<0.001)可能伴随着较大的效应量,但也有可能出现实际效应量微不足道或没有意义,特别是当样本量很大时。换句话说,研究者不能仅仅使用统计显著性来暗示组间有意义或重要的差异。

与统计显著性不同,效应量可以提供关于结果实际重要性的信息,而不仅仅是是否具有显著性。

对于效应大小的标准度量,文中提供了三个值。

首先,我们考虑Pearson r相关系数。正如大家所熟知的,相关性的值和算术符号(' + ' vs. ' - ')显示了两个变量之间关系的强度和方向。

Pearson相关性本身并不是衡量效应大小的指标。

然而,计算Pearson r相关系数的平方会得到一个决定系数,即r2(r-squared),它可以指导对相关关系的解释。

当数据集中没有离群值时,尤其是在范围的最低值和最高值时,可以最有把握地解释Pearson r。构建和评估数据的散点图可以显示皮尔逊r是否可以恰当地使用。

在线性回归中,R2(和调整的R2)值是衡量效应大小的指标,它描述了可以被实验模型“解释”的数据中变异性的比例。R2和调整R2的值通常在0.00和1.00之间变化。

R2和调整后的R2的解释类似于Pearson r。如果一个实验模型包含三个预测变量和一个结果变量,则:

  • R2值为0.00意味着预测变量集(及其相关系数)不能预测结果变量的值。

  • 同样,R2值为1.00意味着预测变量集(及其相关系数)完美地解释了变量。

偏η2(偏方差)评估自变量和因变量之间的关联程度。它通常作为统计程序中的可选报告,特别是基于方差分析(一般线性模型)的分析。通常,分析程序对每个主要影响产生偏η2。

偏η2值理论上可以在0.00 ~ 1.00之间,偏η值越大,说明在考虑了实验模型中其他变量的方差后,该效应占方差的比例越大。

有时把所有偏η2值的总和作为解释方差的总体度量。然而,由于简单和更复杂的效应(如主效应与相互作用)可以共享方差,偏η2值的总和可能大于1.00,这是一个不合适的结果。

Cohen’s d是一种通用测量方法:

  • 当结果是数值型时,它可以估计效应值;

  • 如果结果使用名义型(类别型)测量尺度,它可以估计比例或优势比;

  • 如果结果是一种关联,它可以估计相关性。

因为即使研究使用不同的结果测量方法,Cohen’s d也能表达效果大小,所以它是进行Meta分析的一个非常有价值的工具。

根据实验设计的具体情况和研究者的需要,可以用多种方法计算Cohen系数。通常,组与组之间的差异是由可变性来划分的。

对于两组比较,其中组的大小相等,组内变异性相似,Cohen’s d可以计算为:

结果值可以解释为组间的差异,用标准差表示。Cohen's d可以从0.00变化到理论上无限的正负值。

闲来郑语

效应量提供了一种更全面的方式来解释研究结果,而不仅仅是关注是否存在统计显著性。

这也是现如今文章发表的必然要求,可不要陷入P值的误区里。

诸位有兴趣可以去看看原文,本文只摘录部分做个分享。


评论