尽管线性回归是非常常用的分析工具,但它只能估计自变量对因变量平均值的影响。
如果因变量分布明显偏态、存在极端值,或者研究关注的是高风险人群,线性回归有很大局限。
这种情况下可以使用一个更合适的方法:无条件分位数回归(UQR),今天我们来介绍一下。
2025年6月,《BMC Public Health》杂志发表了一篇研究论文,利用美国“健康与退休研究”(Health and Retirement Study,HRS)公共数据库中 50 岁及以上参与者的数据,采用线性回归和无条件分位数回归实证评估教育程度与晚年 HbA1c 之间的关系,并考察二者在 HbA1c 分布各分位点上的差异性关联。
通过这种新颖的分位数回归方法,研究者对教育程度与 HbA1c 在整个分布区间的关联进行评估,能够识别教育程度对 HbA1c 不同分布区间的异质性影响,揭示线性回归所掩盖的细节。
通过这一方法,研究者期望深化对教育不平等如何影响糖尿病风险的理解。
下面一起看看这篇文章!
研究设计
利用HRS公共数据库的数据(N = 21,732),考察教育年限与首次记录的糖化血红蛋白(HbA1c)之间的关系。
1.PECO原则
P研究对象:2003–2006 年间至少有一次 HbA1c 测量且测量时年龄 ≥50 岁的所有 HRS 参与者(N = 21,840)
E暴露变量:基于先前研究发现,高中以下教育与高中及以上教育者的健康轨迹存在显著分岔,研究者在分析时将教育年限分为两组(12 年教育通常对应高中毕业):
<12 年(N = 4,801,22%)
≥12 年(N = 16,931,78%)
O结局:参与者在 2003–2016 年间、年龄 ≥50 岁时首次记录的 HbA1c 值。
S研究类型:观察性研究
2.统计学方法
研究者使用线性回归和无条件分位数回归(UQR)来建模教育年限与 HbA₁c 之间的关系
在HbA1c均值处,采用线性回归分析;
在边际结果分布的第 1 至第 99 分位点处,采用无条件分位数回归分析。
分析中控制了出生年份、种族与族裔、性别、出生地、父母教育水平以及 HbA1c 测量年份等混杂因素。
为了直观展示 UQR 结果对 HbA₁c 样本分布的影响,我们绘制了“反事实”分布图,模拟当样本平均教育年限增加 1 年时 HbA₁c 分布的变化。首先,将真实观测的 HbA₁c 数据按第 1–99 分位分箱;然后,将 UQR 估计的教育—HbA₁c 关联效应按分位加到观测数据上,生成潜在的反事实分布;最后,将观测分布与反事实分布作图比较。
主要研究结果
教育年限“< 12 年”组的 HbA₁c 中位数(IQR)为 5.8%(5.5%–6.4%),而“12+ 年”组为 5.6%(5.3%–6.1%)。
1.对于教育年限“< 12 年”组
线性回归和无条件分位数回归结果显示教育年限与 HbA1c 水平在均值和各分位点均无显著关联。
UQR结果显示,在较高分位(91–97 分位)可能呈正相关,尽管此处置信区间较宽(β₉₅ = 0.13%,95% CI: −0.03, 0.29)。
图1a 教育年限少于 12 年的参与者的线性回归与无条件分位数回归估计值及其 95%CI
2.对于“12+ 年”组
线性回归结果显示,每增加 1 年教育,平均 HbA₁c 显著降低(OLS回归系数β = −0.02,95% CI: −0.03 至 −0.02)。
无条件分位数回归结果表明,教育每增加 1 年,HbA1c 在几乎所有分位均降低,且在高分位点(高风险尾部)降幅更大( β₉₀ = –0.06,95% CI –0.09 至 –0.04,β₉₅ = −0.09%,95% CI: −0.14 至 −0.04)。
图1b 教育年限在 12 年及以上的参与者的线性回归与 UQR 估计值及其 95% CI
3.“反事实”分布图
图 2 展示了样本中 HbA₁c 的真实观测分布与基于 UQR 估计的“反事实”分布(即假设平均教育年限增加 1 年后 HbA₁c 分布的预测变化)。有助于直观显示教育提升对 HbA₁c 分布的潜在影响。
与图 1 中 UQR 效果大小一致,“反事实”分布变化较小,难以直接辨别;因此图 2 对峰值区域进行了放大(图中裁剪了 HbA1c 分布的两端,以突出显示分布的峰值部分)。
在“< 12 年”组中,“反事实”分布在峰值处的密度略低于观测分布峰值,表明分布峰附近略有向右(更高 HbA₁c)的小幅移动;
图2a 显示教育年限少于 12 年的参与者的 HbA1c 实际分布与反事实分布;
而在“12+ 年”组中,“反事实”分布峰值密度略高于观测分布峰值,表明分布峰附近略有向左(更低 HbA₁c)的小幅移动。
图2b 显示教育年限在 12 年及以上的参与者 HbA1c 实际分布与反事实分布
老郑小评
对于结局变量偏态分布的研究来说,无条件分位数回归(UQR)是很好的分析方法。这项研究的一个重要优势就是使用了UQR提供的丰富信息。
研究者采用UQR,以评估教育在 HbA1c 整个分布中的影响,而非仅仅关注平均水平,这避免了对整个分布中均存在恒定效应的假设。
通过考察整个结局变量分布中的暴露-结局关系,UQR 揭示了教育与 HbA1c 关系中的异质性。
对比线性回归与 UQR 的结果,均值模型无法揭示分布中的全部异质性,突显了在刻画整个分布上关系的局限,尤其在风险非线性的情况下,必须在全分布层面评估该关系。
这篇文章作者在讨论部分写到:“虽然这些关联在数值上看似较小,我们的研究仍为现有文献做出补充,提出了一种评估这种异质性关系的方法,并揭示了教育与 HbA1c 的关系在不同教育水平人群中并不一致。”
所以,当你的结局变量是定量的,偏态分布的,不妨加一个无条件分位数回归的方法,不仅能丰富你的研究结果,也能让审稿人眼前一亮。
但这个方法怎么用,对于大家可能是个难题!
下一期,我们再推出无条件分位数回归该如何实现,敬请关注。
参考文献:Hebert, J., Irish, A., Khadka, A. et al. More schooling is associated with lower hemoglobin A1c at the high-risk tail of the distribution: an unconditional quantile regression analysis. BMC Public Health 25, 2062 (2025). https://doi.org/10.1186/s12889-025-23063-x