公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

中国要举全国之力建设大型医学队列吗?来看看这篇文章

Administrator
发布于 2025-09-10 / 9 阅读
0
0

昨日,我看见“知识分子”公众号发布的唐金陵教授的一篇推文,标题起得很吸引人:“对中国的医学研究最重要的一件事”。点进去一看,这篇文章应用的角度详细解读了大型队列的重要性,文字犀利、独到。然而,文章全篇从国外大型队列的优点,却未提及国内大型队列的现状,文章最后认为中国应该“用举国之力,建立一个百万的自然人群队列”。
所以,中国真的应该举全国之力建设建设大型医学队列吗?

1. 中国不缺大型队列

即使在全球范围内,样本量达百万的队列也是屈指可数,美国的“全民健康”百万人群队列(AoU)达到100万人,英国的百万妇女研究(MWS)100万人,中国在2023年也启动了健康浙江百万人群队列。

在样本量百万以下的队列中,我们也不乏一些具有代表性和国际影响力的队列,比如1991年启动的中国高血压调查流行病学随访研究(20万人)、2004年启动的中国慢性病前瞻性研究(51.0万)、2007年启动的中国泰州人群健康跟踪调查(20万人)。从大型队列的总人数上看,中国虽与美国仍存在差距,但也与英国相近。中国并不缺少大型队列。

2. 维持大型队列的不能光靠政府和纳税人

大型队列研究耗资巨大,经费来源非常关键。与国外队列相比,我国队列研究起步较晚、规模较小、项目执行期短且缺乏长期稳定支持

我国的大型队列数据缺少关键的商业转化过程。国外的大型队列建设采用了公私合作的模式,除了政府提供的资金外,还有一系列基金会、企业参与合作并提供资助。比如某个10万人的队列,有企业投资了检测了基因组和转录组,通过遗传及基因组学分析发现了某种疾病的治疗靶点;又有人投资测了不同时间点对药物的反应、然后花钱去看参与者几年、十年、几十年疾病的进展,健康状态的改变。这些数据的产生就像,刚开始只是一个冰晶,变成小雪球,变成大雪球,雪球越滚越大,价值也越来越高

与国外不同,我国现有大型队列主要通过申请研究项目、基金的形式获得政府或医院的资助。我们来粗算一下,假设一个研究对象在基线和随访过程的检测费用为500元,那么一百万人的队列光检测就要花费5亿元,更不用说还要给研究对象更多的补贴。在没有企业参与的情况,政府资助难以满足百万级别队列对人力物力的要求。毕竟队列一旦建起,就是奔着长期追踪去的,维护队列更需要持续且稳定的资源。为了追求样本量而消耗大量资源,不利于利于维持团队,也不利于后期随访和质量控制,最后落地的实际效果就是,大部分队列研究随访时间则<5年,一众实验室非常辛苦地长期采集队列数据,研究人员在初级层次上不断重复劳动,经费也投入了不少,但是至今没有任何可以跟UK Biobank抗衡的大数据中心,形成不了优势竞争力

在中国,队列建设都是行政强化的产物,拿基层工作人员作为免费劳动力开展调查与数据收集,这质量能上的去吗?

在中国,很多队列实际上都是行政主导的力量,尤其是疾控、医院,底下的单位辛辛苦苦给你收你数据,上头的通过各种行政命令,用几乎零成本的方式采集各种数据。无偿劳动也就算了。上头质量还得高,数据还不共享,给你颁发个荣誉证书?这质量能高吗?

3. 队列研究不是万能药

有观点认为,只有通过更大规模的群体研究,危险因素的影响才会体现出统计上客观可靠的结果,因此队列的样本量应该越大越好。没错,队列研究确实是目前国际上公认的研究暴露因素与疾病结局之间关联的流行病学研究方法。开展大型人群队列研究也有利于提升结果的可靠性,然而,除了上文提到需要耗费大量的资源外,在队列研究在解决医学问题上也存在局限性。队列研究的最终目的依然是服务于疾病的精准预防、诊断和治疗。但成果转化的过程即使是大型队列也无法验证,需要更为可靠的随机对照研究。

大型队列受限于其研究设计,同样逃脱不了队列研究的缺点。队列研究是观察性的,不像随机对照试验那样可以随机分配暴露,然而由于样本量巨大,即使效应量很小(如135mmHg和138mmHg之间的差异),p值也可能非常小,容易造成对关联或者效果重要性的误解,而这种关联可能是由于某种偏倚或者未被观察的因素所导致的。

4. 中国队列缺的是数据共享

更为重要的一点,我们国内已经有大量的队列数据结果,可广大的研究人员却没有机会使用啊。

大型队列研究真正的价值在于长期随访中所积累的数据,只有开放共享数据才能发挥其最大价值。像UKB这样的基础数据资源全球各地的研究人员都可以使用,在50万样本量条件下,实现了论文产出近6000篇,引用超18万次。研究人员既发表了具有影响力的成果,数据的价值也实现了最大化。

实际上,科学本质上就是踩在别人的肩膀上持续攀登。来自各个方向的研究人员对数据不断地进行使用(输出)和贡献(输入),这才促使的医学观点的产生。数据共享在国内很早就被推上台面,国内已经有很多社会科学的队列开放了数据共享,但是医学领域的队列普遍不开放共享。大量的数据被队列背后的研究院占据,无法得到更为充分的利用和分析。

这两年,国家在大数据资源上加强了安全、隐私、监管等各方面的要求,数据共享面临的限制确实更多了。但是大型队列的其研究经费来自政府,更来自广大的百姓,如此重要的数据为何在国内也无法实现共享,这需要我们反思。

有意思的是,在我撰写文章的时候,中国队列共享平台的网站还是一个无法打开的状态。(https://chinacohort.bjmu.edu.cn/)。

诸位可以想想,到底建队列的专家们,有多少是拿了政府的专项、拿了我们纳税人的钱,是说要要建大国重器,最后不是藏着去发文章而是给全国人民用的?

我个人的想法,只要是纳税人的钱,不涉及保密信息的,就要公开共享

5. 从Framingham小镇到队列研究

在马萨诸塞州弗雷明汉镇进行的著名的弗雷明汉心脏研究,从1948年秋季开始,弗雷明汉研究项目招募了5000名本地成年人开展队列研究;是由于弗雷明汉研究,大多数重要的心脏病风险得以被确定或证实,包括糖尿病、吸烟、肥胖、不良饮食、长期懒散,等等。事实上,就连“危险因素”这个词,据说也是弗雷明汉研究创造的。

迄今80多年,历经三代开展随访研究,总的随访也就万余人。但就是这万余人的研究,发表了几千篇影响全球医学发展的论文,大多数重要的心脏病风险得以被确定或证实,包括糖尿病、吸烟、肥胖、不良饮食、长期懒散,等等。

为什么一定要大型队列?做的不好怪样本量不够?

有国内医学研究团队基于全国大范围50万人群队列进行研究与分析,探讨影响中国人群健康的主要饮食、环境、行为因素。由于人群规模极其庞大,研究成果连续在国际顶级期刊《新英格兰医学杂志》、《柳叶刀》杂志发表了多篇学术论文。学界和人民为之骄傲、感动,这是中国原创性的成果。然而,从经济学角度来看,这并非值得提倡的事情,这是违背统计学研究思维的事情。为什么?从发表论文角度,医学研究人群规模越大,耗费资金越多,录用杂志等级将越高。50万的人群规模,数以亿计的科研经费,全世界范围都屈指可数,必然有大概率的机会刊登顶级杂志。但是,从研究结果来看,10000规模人群、1000万人民币的投入同样可以获得相似的结果,差别在于录用论文的期刊,不再是《柳叶刀》,而是《柳叶刀》子刊。看起来杂志有差别,但是统计效果完全一样。发表《柳叶刀》杂志,不是说就能够有跟高概率获得诺贝奖,实际上大多数诺贝奖都没有顶级杂志录用的论文作为支撑。

从经济学角度来看,50万人群的研究项目,只不过是浪费国家资源,不属于真正的统计学研究。这些学者只不过是在积累和提升个人荣誉,迎合国内虚荣膨胀的学术氛围罢了。

Framingham小镇的成功,不在于人数多少,而是在于组织、在于合作、在于积极参与、在于公开。

小结

我们并不缺乏建设大型队列的能力,也不乏一些具有代表性和国际影响力的大型队列。但是再大的队列、再好的数据,不愿公开,怎么发挥其的价值呢。


评论