公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

关于因果推断研究,介绍几种减少偏倚的分析方法

Administrator
发布于 2025-07-17 / 7 阅读
0
0

很多时候,开展临床、护理研究,通过一项调查或者最终研究,当然希望去探讨因果关系。

那么,今天我们讲讲因果研究中混杂因子调整集的选择,以及介绍几种减少因果推断研究偏倚的方法。

这篇评论文章发表在《European Stroke Journal》杂志,为卒中研究人员对基于观察性数据的描述性流行病学和因果推断研究,提供了十个需要考量和实施的重要要点,以确保的有效性和可解释性。但由于篇幅太长,只能陆续分享整篇文章。

今天我们分享最后两点,第九点:因果研究中混杂因子调整集的选择与阳性假设;第十点:减少因果推断研究偏倚的分析方法。

要点回顾

第一点:就是要考虑您将使用的数据类型是专门为研究而收集的数据,还是为行政和临床目的(但非特定研究目标)常规收集的健康数据。

第二点:是要考虑您的研究问题类型是因果关系还是描述性流行病学?

第三点:基于观察性数据的因果推断

第四点:各种因果效应类型

第五点:描述性流行病学与因果推断研究中的偏倚概述

第六点:使用目标模拟试验方法定义因果效应

第七点:用于阐明和传达因果假设及最小化偏倚的有向无环图

第八点:观察性流行病学研究中的分层与校正

10点入门:如何规范使用观察性数据进行描述性流行病学和因果推断研究

如何利用观察性健康数据,成功回答因果推断问题?

做对这件事,观察性研究也能媲美 RCT!

一文搞懂医学研究因果推断中的有向无环图(DAGs)

注意注意!你开展的统计分析,可能并不是因果推断研究


第九点:因果研究中混杂因子调整集的选择与阳性假设

与关联研究不同,如果观察性分析的研究目的是因果推断,通常需要进行混杂控制。如要点 7 所述,有向无环图(DAG)有助于在设计或分析阶段识别应当或不应当控制的变量,以消除混杂偏倚和某些形式的选择偏倚,并避免对估计的因果效应产生偏差。

具体而言,一旦通过合理构建的 DAG 确定了变量,就必须控制暴露与结局之间非因果路径上的共同原因或其他变量;而中介变量、碰撞变量(colliders)及其后代则不应被调整、分层或以任何方式进行条件化。

因此,在运用 DAG 的图形规则时,关于选择哪些协变量进行调整的决策质量,取决于所依据的因果假设的有效性。

虽然我们鼓励卒中研究者尽最大努力构建 DAG,以反映其因果假设,但必须认识到,完整的因果知识往往难以获得。VanderWeele 和 VanderWeele 对混杂因子选择的各种因果推断方法进行了综述。

下列协变量选择做法并不被推荐,因为它们可能导致对因果效应的偏倚估计:

  • 控制任何先于所研究处理或暴露的变量——这可能会包括对碰撞变量的控制,从而开启一条非因果路径并引入偏倚(见要点 7);

  • 调整所有被假定为暴露和结局共同原因的暴露前协变量。在某些情况下,研究者可能没有这些协变量的数据,而只有一组可视为代理变量的其他协变量,此时如果这些代理变量能够充分控制混杂,也可考虑使用;

  • 数据驱动的方法(如前向/后向选择程序,或当协变量的加入使暴露因果效应估计变化超过某一阈值时才选入模型)——因为这类程序并不建立因果推理基础,仅在完成因果推理后的协变量选择过程中帮助构建最简约模型。

在能够假定“对于每个协变量,研究者都知道它是否是暴露的原因,以及是否是结局的原因”这一前提下,VanderWeele 和 VanderWeele提出了一种务实的协变量选择策略,建议:

  • 控制每个对暴露、对结局或对两者均有因果影响的协变量;

  • 从该集合中排除任何已知的工具变量(如要点 7 中定义);

  • 将任何未测量的暴露与结局共同原因的代理变量也纳入调整协变量。

将这些规则应用于要点 7 中图 5 所示的情形,可将以下变量作为协变量纳入因果效应估计模型:中风发病到治疗时间(若无法获得时间数据,可用梗死核心体积作为时间的代理)、年龄,以及卒中病房护理。

上述协变量选择原则旨在满足因果推理所需的“无未测量混杂假设”和“正确的因果模型规范”假设(见要点 3)。

另一个同样重要、且对协变量选择过程有直接影响的假设是阳性假设(positivity assumption,又称实验性处理分配假设)。

阳性假设要求在研究样本中,对于每一种观测到的混杂协变量组合,都有暴露组和非暴露组的参与者。

举例

图 6 以年龄为例,说明了阳性假设的各个方面。随机对照试验天然满足阳性假设,因为在随机化时,每位参与者接受研究中各处理的概率是已知的;而在观察性研究中,则不一定如此。

图 6. 说明要点 9:随机 (a) 与非随机 (b) 非阳性的区别。阳性假设要求在研究样本中,对于每一种观测到的混杂因子取值组合(例如年龄),均应同时存在暴露组(黄色)和非暴露组(蓝色)参与者。图中以年长受试者仅出现在暴露组的情形来示例非随机(确定性)非阳性,由于非暴露组缺乏可比对照,无法对这部分受试者的暴露效应进行有意义的估计 (c)。可通过对研究样本进行修剪或匹配,以避免因非阳性而产生的无重叠区域 (d)。

请注意,阳性假设并不要求在研究样本中,对于每一种观测到的混杂因子取值组合,暴露组和非暴露组的参与者数量相等(甚至相似)。它所要求的是:基于因果假设或观测数据,对于任一给定协变量组合,参与者属于暴露组或非暴露组的概率都应大于零(即“正”的概率),因而得名“阳性”假设。该概率通常通过倾向性评分来量化,详见要点 10。

我们可以区分阳性假设的随机(random)违反与非随机(deterministic)违反,如图 6 所示。确定性非阳性(图 6(b))指当至少有一种协变量组合(如某一年龄段)对应的受试者不可能属于某一处理水平组时发生。

例如,在要点 7 中所示病例中,依据现行指南,发病超 24 小时的中风患者通常不符合溶栓治疗条件;而无大血管闭塞者通常不符合机械取栓条件。因此,若用 INSPIRE 登记的数据探讨再灌注治疗对功能预后的因果效应,就必须特别注意“中风至治疗时间”这一暴露变量中是否存在确定性非阳性。

与此相对,随机非阳性(图 6(a))则指理论上可能出现但实际未观察到的情形:某些协变量组合在一个或多个处理水平组中恰好没有对应的受试者。Westreich 和 Cole将随机非阳性进一步分为当非阳性区域被阳性区域包围(内部)或未被包围(外部)。例如,可能在 70–73 岁组中未观察到任何接受取栓术的患者,但在 56–69 岁和 74–80 岁组中却有患者;此时 70–73 岁段的非阳性区域即被两侧的阳性区域所包围。

确定性非阳性尤其令人担忧,因其会导致因果效应估计无法解释(图 6(c))。例如,在调整“中风至治疗时间”后估计再灌注治疗效应时,如果溶栓组中无发病后 24 小时以上的患者,那么该效应实际上是“在假设时间相同的条件下,取栓术相对于溶栓的效应”,但这种“时间相同”在数据中根本不存在,属于“对空白区域的外推”,因而估计结果无效。相比之下,随机非阳性更难评估,通常需要定性判断和专家意见。

缓解非阳性违反的推荐做法之一,是明确因果推断研究问题,尤其要清晰界定因果推断的目标人群。可通过修剪(trimming)或匹配(matching)研究样本,去除因非阳性而产生的倾向性评分无重叠区域(图 6(d))。虽会缩小研究人群,但这与因果研究的样本、本底数据库的收集目的本身不同,且在原则上是可以接受的。

对于内部随机非阳性(如 66–70 岁无样本但两侧有样本),Westreich 和 Cole 建议可在该区间谨慎地进行插值或平滑;若是外部随机非阳性(如 <56 岁无样本),外推风险较大,最好直接修剪样本,仅保留 ≥56 岁的参与者。

最后,选择因果推断模型的混杂因子调整集时需在以下两种偏倚风险之间权衡:

  • 一方面,纳入某一因果重要协变量可能导致该协变量的非随机非阳性;

  • 另一方面,因排除重要协变量又可能无法充分控制混杂。

同时,还需考虑多变量回归中的多重共线性等统计问题。这是一个迭代过程,应系统评估不同因果模型,并采取适当措施避免非阳性。

建议9.1:对于基于观察性数据的因果推断研究,一般需进行混杂调整。理想情况下,应基于以 DAG 描述的因果假设及相关规则;若因果知识有限,建议控制所有对暴露或结局(或两者)有因果影响的协变量,排除已知的工具变量,并纳入任何未测量共同原因的代理变量。仅依赖数据驱动的方法不应作为混杂因子选择的依据。

建议9.2:阳性假设是因果推断的关键前提之一。应采用适当方法(如样本修剪、匹配或插值)来缓解非阳性带来的偏倚。


第十点:减少因果推断研究偏倚的分析方法

如表 2 所示,解决因果推断问题的分析方法大致可分为两类:

一类是基于结局模型的拟合方法(如回归、匹配、分层、G-计算);

另一类是基于暴露模型的方法,即估计每个个体在给定其协变量取值下被暴露的概率(倾向性评分)。倾向性评分是指在已知协变量取值的条件下,参与者被暴露的概率。因而,倾向性评分可用于平衡协变量:在倾向性评分相同的参与者中,两组间所有用来估计倾向性评分的混杂因子的分布均实现平衡,从而将多维的平衡问题简化为一维。在“无未测量混杂”假设下,同一倾向性评分组内的实际暴露可视为随机分配,进而降低估计因果效应的偏倚。

除了按“结局建模”与“暴露建模”的分类外,上述分析方法还可分为“条件调整”(conditioning)与“标准化调整”(standardization),如下所述。

一、条件调整:回归、匹配、分层

1.回归:通过模型化的方式,对混杂因子进行条件化/控制/固定。

对仅含单一协变量的回归模型而言,暴露(或处理)项的回归系数即估计了在该协变量每个取值下的暴露效应,其前提假设为:因果效应在协变量所定义的所有层次中均相同。

多协变量回归可同时调整任意数量的混杂因子,但受样本量、模型拟合及多重共线性等技术限制(超出本入门介绍范围)。此时,唯一关心的是暴露项的系数,其他协变量系数仅用于描述模型假设,对因果效应本身无实质意义,也无需报告。文献中称“表 2 谬误”(Table 2 fallacy)即源自对“互相调整后”效应估计的简单解读。

2.匹配与分层:可直接基于协变量进行匹配或分层,也可将倾向性评分(见下文)作为条件变量进行匹配、分层或回归。

此外,可通过将倾向性评分纳入回归模型(替代或同时与选定混杂因子使用)来完成条件调整。

二、标准化调整:逆概率加权(IPTW)与 G-计算

因果推断中,我们希望“在所有参与者上”比较不同暴露水平下的假设结局,以估计例如均值差异或比值比等因果效应。但在实际研究中,每位参与者仅接受一种暴露水平。基于“无未测量混杂”假设,可通过统计模型“还原”未观察到的结局,使其参照全样本混杂因子分布(见图 7):

1.逆概率处理权重(IPTW)

使用倾向性评分对暴露组和非暴露组参与者加权,使加权后的两组混杂因子分布均与全样本一致,从而实现对照。

图 7a 基于倾向性评分的逆概率处理加权(IPTW)标准化。在 IPTW 中,通过对观测值重新加权,使加权后暴露组与非暴露组的混杂因子分布均与总体样本一致,以实现平衡。

2.G-计算(G-Computation)

对每位参与者在所有暴露水平下的结局进行模型预测,然后取全样本混杂因子分布下的加权平均,以获得标准化后的效应估计。

图 7b 说明要点 10。G-计算方法则通过对样本中所有参与者在各暴露水平下的结局进行汇总,旨在恢复与总体样本混杂因子分布相符的标准化效应估计。

这两种标准化方法均可在不依赖回归条件假设的前提下,实现基于全样本混杂因子分布的因果效应估计。

G‑计算(G‑Computation)估计在每一暴露水平下的结局汇总指标,并将其标准化到全样本的混杂因子分布。

具体而言,首先按照要点 7 和 9 中讨论的原则构建结局模型,然后利用该模型为所有参与者——不论其实际接受何种暴露——分别预测其在假设接受某一特定暴露时的结局。

例如,假设在 INSPIRE 登记(见要点 2 与 8)中,我们要评估再灌注治疗对功能预后的因果效应,则需对所有选入研究的参与者分别进行两次预测:一次假设其接受溶栓治疗,另一次假设其接受机械取栓,然后计算两种情景下获得预定功能水平(如 mRS 0–2)概率的均值之差,作为因果效应估计。在此过程中,由于结局汇总是针对样本中所有参与者进行的,故实现了全样本混杂因子分布的标准化。G‑计算中通常会放松“因果效应在所有混杂因子组合中相同”的假设,并在模型中纳入适当的交互项。

另一种标准化调整方法是基于倾向性评分的逆概率处理加权(IPTW)。首先,对每位参与者计算其实际接受的暴露水平的倾向性评分的倒数(即 1/PS),以衡量在相应协变量取值下,参与者接受该暴露水平的可能性。然后构建结局回归模型,并以 IPTW 作为权重进行拟合。

具体做法是:

1.使用 PS 对暴露组参与者加权,以模拟全样本混杂因子分布,然后在此加权样本中计算感兴趣的结局汇总指标;

2.使用 (1–PS) 对非暴露组参与者加权,以模拟全样本混杂因子分布,然后在此加权样本中计算相同的汇总指标;

3.两组的加权结果就构成了在全样本混杂因子分布下的暴露与对照结局对比。

这种方法如前所述,旨在使加权后暴露组与非暴露组的混杂因子分布均与总体一致,从而实现标准化。

如研究者关心的因果效应指标从总体平均处理效应(ATE)改为平均处理效果在处理组(ATT)或非处理组(ATU),则权重计算方式需做相应调整(见要点 4)。关于稳定化权重、交叠权重的使用,以及在此类加权回归中如何进行稳健标准误估计等技术细节,则超出本入门介绍范围。

例如,在要点 6 提到的 PRECISE 研究中,研究者采用 IPTW 来获得无偏的 ATE 估计。在该观察性研究中,IPTW 用于构建一个伪总体,使处理组与对照组在 42 项基线协变量上实现平衡,模拟随机对照试验条件。为最大程度减少偏倚,IPTW 所用协变量应与类似人群的 RCT 中收集的基线特征保持一致,同时纳入已知可能影响治疗分配或结局的额外因素。对于基于次级数据源的观察性研究而言,这一点具有挑战性,因为某些关键变量可能无法获取。在 PRECISE 研究中,研究团队通过多来源数据链接,成功获得并平衡了上述 42 项协变量。如要点 9 所述,IPTW 可靠性的前提是满足阳性假设,即每位个体在处理与对照两种情况中均有大于零的概率。引入目标试验框架(见要点 6)的纳入标准,有助于提高满足该假设的可能性。

在可能的情况下,建议在主要分析之外,额外进行因果对比分析,即模拟一项依循方案分析(per‑protocol analysis),评价基于实际接受治疗的效果,而非仅按初始分组进行比较。由于观察性研究中缺乏完整的治疗依从性信息,此分析存在困难,可通过对被认为更可能遵循治疗方案的亚组进行敏感性分析予以补充。

例如,在 PRECISE 研究中,可选取那些在暴露期内与初级保健医师保持定期联系或提交与目标政策相关理赔记录的患者,作为高依从性亚组。

总而言之,上述所有分析方法均依赖要点 3 中讨论的因果假设。它们的区别在于所依赖的统计参数假设不同:

  • 标准化‑倾向性评分方法(如 IPTW)侧重于对暴露模型的正确指定,通过“模拟随机化设计”将协变量平衡与结局估计分离;

  • 标准化‑G‑计算方法则侧重于对结局模型的正确指定,通过直接拟合结局模型实现标准化。

  • 即便事先构建了合理的 DAG(要点 7)并选取了适当的调整协变量(要点 9),单一一个事前正确的结局模型并不总是可行,通常需考虑包含不同交互项的多种模型。

  • 条件调整方法(如结局回归、分层、匹配)则既要求对结局模型正确指定,又依赖因果效应在所有混杂协变量层次中相同的假设。目前文献中尚未就在何种情境下应优先采用哪种分析方法达成共识。

尽管对定量偏倚分析(quantitative bias analysis)的深入讨论超出本入门范围,仍建议进行广泛的敏感性分析,以评估结果对潜在未测量或未控制混杂的稳健性。

最后简要谈及基于常规收集观察性数据的因果推断研究的统计功效分析。与可通过招募更多受试者来满足预定功效或精度的前瞻性研究不同,常规数据的数据库总体与实际研究人群并不完全一致,且其中只有部分(事先未知)数据可用于因果问题。要点 3、6、7 和 9 的讨论表明,真正有意义的样本量估算在实践中难以实现。目前建议的做法是:

1.基于观察性数据明确并分析因果问题;

2.以置信区间形式报告因果效应估计及其不确定性;

3.当来自不同数据库的充分估计累积后,进行荟萃分析。

在报告时,应重点关注因果效应大小及其不确定性与精度。未达到某一统计显著性阈值的结果,不应被解读为无因果效应,而应视为证据不足,好比一个统计功效不足的临床试验的中性结果。

建议10.1:首先识别可最小化偏倚的协变量,并采用合适方法;随后,依据条件调整或标准化逻辑进行调整,即拟合暴露模型(倾向性评分)或结局模型(回归、匹配、分层或 G‑计算)。

建议10.2:避免报告包含所有协变量的“互相调整后”回归系数,以免陷入“表 2 谬误”。


评论