公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

偏态数据怎么做回归?介绍一种合适的方法

Administrator
发布于 2025-07-08 / 2 阅读
0
0

尽管线性回归是非常常用的分析工具,但它只能估计自变量对因变量平均值的影响。

如果因变量分布明显偏态、存在极端值,或者研究关注的是高风险人群,线性回归有很大局限。

这种情况下可以使用一个更合适的方法:无条件分位数回归(UQR),今天我们来介绍一下。

2025年6月,《BMC Public Health》杂志发表了一篇研究论文,利用美国“健康与退休研究”(Health and Retirement Study,HRS)公共数据库中 50 岁及以上参与者的数据,采用线性回归和无条件分位数回归实证评估教育程度与晚年 HbA1c 之间的关系,并考察二者在 HbA1c 分布各分位点上的差异性关联。

通过这种新颖的分位数回归方法,研究者对教育程度与 HbA1c 在整个分布区间的关联进行评估,能够识别教育程度对 HbA1c 不同分布区间的异质性影响,揭示线性回归所掩盖的细节。

通过这一方法,研究者期望深化对教育不平等如何影响糖尿病风险的理解。

下面一起看看这篇文章!


研究设计

利用HRS公共数据库的数据(N = 21,732),考察教育年限与首次记录的糖化血红蛋白(HbA1c)之间的关系。

1.PECO原则

P研究对象:2003–2006 年间至少有一次 HbA1c 测量且测量时年龄 ≥50 岁的所有 HRS 参与者(N = 21,840)

E暴露变量:基于先前研究发现,高中以下教育与高中及以上教育者的健康轨迹存在显著分岔,研究者在分析时将教育年限分为两组(12 年教育通常对应高中毕业):

  • <12 年(N = 4,801,22%)

  • ≥12 年(N = 16,931,78%)

O结局:参与者在 2003–2016 年间、年龄 ≥50 岁时首次记录的 HbA1c 值。

S研究类型:观察性研究

2.统计学方法

研究者使用线性回归和无条件分位数回归(UQR)来建模教育年限与 HbA₁c 之间的关系

  • 在HbA1c均值处,采用线性回归分析;

  • 在边际结果分布的第 1 至第 99 分位点处,采用无条件分位数回归分析。

  • 分析中控制了出生年份、种族与族裔、性别、出生地、父母教育水平以及 HbA1c 测量年份等混杂因素。

为了直观展示 UQR 结果对 HbA₁c 样本分布的影响,我们绘制了“反事实”分布图,模拟当样本平均教育年限增加 1 年时 HbA₁c 分布的变化。首先,将真实观测的 HbA₁c 数据按第 1–99 分位分箱;然后,将 UQR 估计的教育—HbA₁c 关联效应按分位加到观测数据上,生成潜在的反事实分布;最后,将观测分布与反事实分布作图比较。

主要研究结果

教育年限“< 12 年”组的 HbA₁c 中位数(IQR)为 5.8%(5.5%–6.4%),而“12+ 年”组为 5.6%(5.3%–6.1%)。

1.对于教育年限“< 12 年”组

线性回归和无条件分位数回归结果显示教育年限与 HbA1c 水平在均值和各分位点均无显著关联

UQR结果显示,在较高分位(91–97 分位)可能呈正相关,尽管此处置信区间较宽(β₉₅ = 0.13%,95% CI: −0.03, 0.29)。

图片

图1a 教育年限少于 12 年的参与者的线性回归与无条件分位数回归估计值及其 95%CI

2.对于“12+ 年”组

线性回归结果显示,每增加 1 年教育,平均 HbA₁c 显著降低(OLS回归系数β = −0.02,95% CI: −0.03 至 −0.02)。

无条件分位数回归结果表明,教育每增加 1 年,HbA1c 在几乎所有分位均降低,且在高分位点(高风险尾部)降幅更大( β₉₀ = –0.06,95% CI –0.09 至 –0.04,β₉₅ = −0.09%,95% CI: −0.14 至 −0.04)。

图片

图1b 教育年限在 12 年及以上的参与者的线性回归与 UQR 估计值及其 95% CI

3.“反事实”分布图

图 2 展示了样本中 HbA₁c 的真实观测分布与基于 UQR 估计的“反事实”分布(即假设平均教育年限增加 1 年后 HbA₁c 分布的预测变化)。有助于直观显示教育提升对 HbA₁c 分布的潜在影响。

与图 1 中 UQR 效果大小一致,“反事实”分布变化较小,难以直接辨别;因此图 2 对峰值区域进行了放大(图中裁剪了 HbA1c 分布的两端,以突出显示分布的峰值部分)

在“< 12 年”组中,“反事实”分布在峰值处的密度略低于观测分布峰值,表明分布峰附近略有向右(更高 HbA₁c)的小幅移动;

图片

图2a 显示教育年限少于 12 年的参与者的 HbA1c 实际分布与反事实分布;

而在“12+ 年”组中,“反事实”分布峰值密度略高于观测分布峰值,表明分布峰附近略有向左(更低 HbA₁c)的小幅移动。

图片

图2b 显示教育年限在 12 年及以上的参与者 HbA1c 实际分布与反事实分布

老郑小评

对于结局变量偏态分布的研究来说,无条件分位数回归(UQR)是很好的分析方法。这项研究的一个重要优势就是使用了UQR提供的丰富信息。

研究者采用UQR,以评估教育在 HbA1c 整个分布中的影响,而非仅仅关注平均水平,这避免了对整个分布中均存在恒定效应的假设。

通过考察整个结局变量分布中的暴露-结局关系,UQR 揭示了教育与 HbA1c 关系中的异质性

对比线性回归与 UQR 的结果,均值模型无法揭示分布中的全部异质性,突显了在刻画整个分布上关系的局限,尤其在风险非线性的情况下,必须在全分布层面评估该关系。

这篇文章作者在讨论部分写到:“虽然这些关联在数值上看似较小,我们的研究仍为现有文献做出补充,提出了一种评估这种异质性关系的方法,并揭示了教育与 HbA1c 的关系在不同教育水平人群中并不一致。”

所以,当你的结局变量是定量的,偏态分布的,不妨加一个无条件分位数回归的方法,不仅能丰富你的研究结果,也能让审稿人眼前一亮。

但这个方法怎么用,对于大家可能是个难题!

下一期,我们再推出无条件分位数回归该如何实现,敬请关注。

参考文献:Hebert, J., Irish, A., Khadka, A. et al. More schooling is associated with lower hemoglobin A1c at the high-risk tail of the distribution: an unconditional quantile regression analysis. BMC Public Health 25, 2062 (2025). https://doi.org/10.1186/s12889-025-23063-x


评论