公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

偏态数据怎么做回归?介绍一种合适的方法

Administrator
发布于 2025-07-08 / 12 阅读
0
0

尽管线性回归是非常常用的分析工具,但它只能估计自变量对因变量平均值的影响。

如果因变量分布明显偏态、存在极端值,或者研究关注的是高风险人群,线性回归有很大局限。

这种情况下可以使用一个更合适的方法:无条件分位数回归(UQR),今天我们来介绍一下。

2025年6月,《BMC Public Health》杂志发表了一篇研究论文,利用美国“健康与退休研究”(Health and Retirement Study,HRS)公共数据库中 50 岁及以上参与者的数据,采用线性回归和无条件分位数回归实证评估教育程度与晚年 HbA1c 之间的关系,并考察二者在 HbA1c 分布各分位点上的差异性关联。

通过这种新颖的分位数回归方法,研究者对教育程度与 HbA1c 在整个分布区间的关联进行评估,能够识别教育程度对 HbA1c 不同分布区间的异质性影响,揭示线性回归所掩盖的细节。

通过这一方法,研究者期望深化对教育不平等如何影响糖尿病风险的理解。

下面一起看看这篇文章!


研究设计

利用HRS公共数据库的数据(N = 21,732),考察教育年限与首次记录的糖化血红蛋白(HbA1c)之间的关系。

1.PECO原则

P研究对象:2003–2006 年间至少有一次 HbA1c 测量且测量时年龄 ≥50 岁的所有 HRS 参与者(N = 21,840)

E暴露变量:基于先前研究发现,高中以下教育与高中及以上教育者的健康轨迹存在显著分岔,研究者在分析时将教育年限分为两组(12 年教育通常对应高中毕业):

  • <12 年(N = 4,801,22%)

  • ≥12 年(N = 16,931,78%)

O结局:参与者在 2003–2016 年间、年龄 ≥50 岁时首次记录的 HbA1c 值。

S研究类型:观察性研究

2.统计学方法

研究者使用线性回归和无条件分位数回归(UQR)来建模教育年限与 HbA₁c 之间的关系

  • 在HbA1c均值处,采用线性回归分析;

  • 在边际结果分布的第 1 至第 99 分位点处,采用无条件分位数回归分析。

  • 分析中控制了出生年份、种族与族裔、性别、出生地、父母教育水平以及 HbA1c 测量年份等混杂因素。

为了直观展示 UQR 结果对 HbA₁c 样本分布的影响,我们绘制了“反事实”分布图,模拟当样本平均教育年限增加 1 年时 HbA₁c 分布的变化。首先,将真实观测的 HbA₁c 数据按第 1–99 分位分箱;然后,将 UQR 估计的教育—HbA₁c 关联效应按分位加到观测数据上,生成潜在的反事实分布;最后,将观测分布与反事实分布作图比较。

主要研究结果

教育年限“< 12 年”组的 HbA₁c 中位数(IQR)为 5.8%(5.5%–6.4%),而“12+ 年”组为 5.6%(5.3%–6.1%)。

1.对于教育年限“< 12 年”组

线性回归和无条件分位数回归结果显示教育年限与 HbA1c 水平在均值和各分位点均无显著关联

UQR结果显示,在较高分位(91–97 分位)可能呈正相关,尽管此处置信区间较宽(β₉₅ = 0.13%,95% CI: −0.03, 0.29)。

图片

图1a 教育年限少于 12 年的参与者的线性回归与无条件分位数回归估计值及其 95%CI

2.对于“12+ 年”组

线性回归结果显示,每增加 1 年教育,平均 HbA₁c 显著降低(OLS回归系数β = −0.02,95% CI: −0.03 至 −0.02)。

无条件分位数回归结果表明,教育每增加 1 年,HbA1c 在几乎所有分位均降低,且在高分位点(高风险尾部)降幅更大( β₉₀ = –0.06,95% CI –0.09 至 –0.04,β₉₅ = −0.09%,95% CI: −0.14 至 −0.04)。

图片

图1b 教育年限在 12 年及以上的参与者的线性回归与 UQR 估计值及其 95% CI

3.“反事实”分布图

图 2 展示了样本中 HbA₁c 的真实观测分布与基于 UQR 估计的“反事实”分布(即假设平均教育年限增加 1 年后 HbA₁c 分布的预测变化)。有助于直观显示教育提升对 HbA₁c 分布的潜在影响。

与图 1 中 UQR 效果大小一致,“反事实”分布变化较小,难以直接辨别;因此图 2 对峰值区域进行了放大(图中裁剪了 HbA1c 分布的两端,以突出显示分布的峰值部分)

在“< 12 年”组中,“反事实”分布在峰值处的密度略低于观测分布峰值,表明分布峰附近略有向右(更高 HbA₁c)的小幅移动;

图片

图2a 显示教育年限少于 12 年的参与者的 HbA1c 实际分布与反事实分布;

而在“12+ 年”组中,“反事实”分布峰值密度略高于观测分布峰值,表明分布峰附近略有向左(更低 HbA₁c)的小幅移动。

图片

图2b 显示教育年限在 12 年及以上的参与者 HbA1c 实际分布与反事实分布

老郑小评

对于结局变量偏态分布的研究来说,无条件分位数回归(UQR)是很好的分析方法。这项研究的一个重要优势就是使用了UQR提供的丰富信息。

研究者采用UQR,以评估教育在 HbA1c 整个分布中的影响,而非仅仅关注平均水平,这避免了对整个分布中均存在恒定效应的假设。

通过考察整个结局变量分布中的暴露-结局关系,UQR 揭示了教育与 HbA1c 关系中的异质性

对比线性回归与 UQR 的结果,均值模型无法揭示分布中的全部异质性,突显了在刻画整个分布上关系的局限,尤其在风险非线性的情况下,必须在全分布层面评估该关系。

这篇文章作者在讨论部分写到:“虽然这些关联在数值上看似较小,我们的研究仍为现有文献做出补充,提出了一种评估这种异质性关系的方法,并揭示了教育与 HbA1c 的关系在不同教育水平人群中并不一致。”

所以,当你的结局变量是定量的,偏态分布的,不妨加一个无条件分位数回归的方法,不仅能丰富你的研究结果,也能让审稿人眼前一亮。

但这个方法怎么用,对于大家可能是个难题!

下一期,我们再推出无条件分位数回归该如何实现,敬请关注。

参考文献:Hebert, J., Irish, A., Khadka, A. et al. More schooling is associated with lower hemoglobin A1c at the high-risk tail of the distribution: an unconditional quantile regression analysis. BMC Public Health 25, 2062 (2025). https://doi.org/10.1186/s12889-025-23063-x


评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明