公众号
医学论文与统计分析公众号
扫码关注公众号

统计咨询
添加助教微信即可咨询
添加助教微信即可咨询

意见反馈
邮箱:17357190071@163.com
微信:aq566665

审稿人说,你的数据是偏态分布,统计方法不对! 那怎么办?

Administrator
发布于 2025-03-21 / 206 阅读
0
0

经常地,有人咨询我“郑老师,论文杂志单位返修时,审稿人说我的数据呈偏态,用错了统计学方法”。怎么办呀?

郑老师的第一反映是,你是不是又不分正态偏态,统统拿过来进行t检验了吧?这一点,确实该受到批评。这年头,秩和检验方法又不是什么难以通过SPSS实现的方法,你就不试试?

但事已至此,我们还是应付审稿人的问题吧。

这里大家可以思考几个问题:

第一,审稿人为什么怀疑数据是偏态的?

第二,我们是不是一定要按照审稿人意见来?

第三,偏态分布一定不能采用t检验,F检验吗?

第一,审稿人为什么怀疑数据是偏态的?

一般出于两点情况,

第1,有些变量,理论上就是偏态分布的;理论上偏态分布指的是这个变量正常情况下偏态分布是一种常识,不用通过软件分析就能够知道的,比如人体血铅含量、癌症指标甲胎蛋白、幼儿园儿童的视力、晚期癌症患者生存时间等。我有一次投稿的时候,专家就说,你的病程是偏态分布,为啥用均数来描述,我做了个正态性检验,果然是!

第2,在观察值都是正值的情况下,如果标准差特别大,比均数还要大。

比如,下面的例子,病程的标准差比均数还要大,那么就可以怀疑是偏态分布。

第二,我们是不是一定要按照审稿人意见来?

一般是先做一下正态性检验,若正态性检验P<0.05,直方图显示是偏态分布的,则可以按照审稿人意见来修改。他们最大,别惹恼了。哪怕我们觉得他不对,忍忍。

第三,偏态分布一定不能采用t检验,F检验吗?

这是数据分析阶段要考虑的问题。正态性检验P<0.05时,一定要采用秩和吗?不尽然。

对于成组设计的t检验,一般存在着两种观念。第一,各组样本均来自于正态分布的总体。一般可通过正态性检验来进行判断,比如采用Shapiro-Wilk检验方法,如果至少一组P<0.05,则被认为正态性不符合,差异性比较采用秩和检验;第二,根据中心极限定理,无论样本来自何种分布,只要样本量足够大(一般认为样本量大于50即为足够大),其样本均值均近似服从正态分布。因此样本量较大时,完全可以忽视正态性问题,仍然可以采用参数检验方法。上述两个观念相互矛盾,令统计分析人员非常困惑。

郑老师认为,在实践中,正态性检验的方法是一种参考的方法,但它并不能扮演决定性角色,应结合直方图或者Q-Q图进一步的分析。两者方法结合,可以将数据分为正态、近似正态与严重偏态三种形态。

实际统计策略方面,诸位可以将数据分布分为三类:正态分布、近似正态分布数据和严重偏态分布数据。

第1类:正态分布符合,P>0.05; 直方图大致中间多两边少:这一类可以采用均数描述,采用t、F检验

第2类:正态分布不符合,P<0.05,但直方图还是呈现大致的中间多两边少,无严重极端值;这一类也可以采用均数描述,采用t、F检验;而采用非参数秩和检验,也没有问题,要视情况而定。

第3类:正态分布不符合,P<0.05,数据严重偏态,或者存在明显极端异常值。应采用中位数和四分位数间距来描述,采用非参数秩和检验

怎么理解郑老师分出来的三类型和相应的统计学分析策略呢?

一般来说,第一类模式很好理解,正态性检验P大于0.05,一般是正态分布,当然做t检验没有,第三类,正态性检验P值小于0.05,直方图又严重偏态分布,显然要用秩和检验。

关键第二类,大家很难理解明明正态性检验P值小于0.05,为何还可以进行均数描述,进行t检验F检验呢?

原因有两点,

(1)均数描述和t检验是最统计学最灵活最好使的方法,如果偏态分布不严重,他们的结果也是可靠的!

(2)关键是很多时候,利用正态性检验结果P值来反映正态性是不妥当的。这是因为,P值非常容易受到样本量影响;样本量越大,P值越小,大样本的时候P值总是<0.05,哪怕数据是几乎几乎完美正态。

举个例子:

我在《卫生统计学》课程介绍正态性的问题,碰到一个超过10000多例研究对象的样本,其正态性检验如下:

P<0.05,表明是偏态数据,但是其直方图如下:

这个数据,满足我上文讲的第二类分布。它虽然P<0.05,但是是典型的近似正态分布,在统计描述上,可以用均数及标准差描述,用t检验和F检验进行统计推断,

第四,最后,我来几个疑点的问题

1.近似正态分布有没有标准判定法?

这个没有,有人通过偏度系数来判定、或者通过均数中位数的差距来判定,但都没有界值。我看,还是直方图看看,差不多即可。不要太偏态。

比如下面这4幅图,哪些是偏态分布,又有哪些是近似正态分布呢?

我认为2是近似正态,而1、3、4是严重偏态分布。

2. 大样本(比如超过100的样本量)两组数据的比较,严重偏态分布是否可以采用t检验?

网络上、甚至统计学教材中认为,大样本资料可以无视正态性问题。他们认为“根据中心极限定理,无论样本来自何种分布,只要样本量足够大(一般认为样本量大于50即为足够大或者更大的100以上),其样本均值均近似服从正态分布。因此样本量较大时,完全可以忽视正态性问题,仍然可以采用参数检验方法”。

这是不对的。根据中心极限理论采用t检验本身没有错。以均数为基础的t检验,是可以比较两组大样本数据均数的差异性。但是问题在于,两组严重偏态分布数据,不能用来均数来表现数据,不能用均数来描述它。t检验是可以说两组均数是否有差异,但是均数的差异不能说明两组严重偏态数据的差异性(至少也得用中位数体现呀)。因此,t检验结论无法反映两组严重偏态数据的分布差异性,哪怕你是大样本!

3. 正态性检验P值大于0.05,一定可以用均数描述,用t检验吗?

不见得,我在推文一开就说,很多时候一些指标理论上就是偏态分布的,要小心谨慎使用t检验。

理论上就是偏态分布的数据,为什么正态性检验P值还大于0.05?因为样本量小了!样本量大了,再正态的数据正态性检验P值也会小于0.05;样本量小了,偏态分布数据正态性检验P值也可能大于0.05。

所以说,结合直方图或者QQ图之类来看数据,还是非常重要的。特别是大样本时候。不要偏信P值,它不是一切!


评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明