用公共数据库的数据进行二次分析,确实省时省力。但要想得出有意义的研究结果,还是得多探索多学习。
前段时间,顶级期刊新英格兰医学杂志子刊《NEJM循证》发表了一篇公共数据挖掘的文章的评论文章,深入分析了该项研究在解决公共数据库挖掘过程中面临的数据回忆偏倚、数据缺失以及不同随访时间差异处理等问题上采取的精妙措施,从而确保了研究结果的可靠性。
这对于我们想要挖掘公共数据库资料开展类似研究的朋友来说,非常值得借鉴!
公开数据发文NEJM子刊
2024年8月27日,医学顶刊NEJM子刊《NEJM Evidence》发表了一篇题为:“Pregnancy after Tubal Sterilization in the United States, 2002 to 2015”的研究论文,旨在使用四波国家家庭成长调查(NSFG)的数据探究美国成人输卵管绝育术后的怀孕率。
研究结果显示,在美国成年女性人群中,接受输卵管绝育术后依旧存在相当高的怀孕率。
(如果你需要全文,请在医学论文与统计分析微信公众号后台回复关键词“pdf”。更多关于公共数据挖掘统计服务,请联系郑老师团队,助教微信:sas555777)
√数据收集
研究团队根据收集的四波“国家家庭成长调查”(NSFG)的数据(包括2002年、2006年至2010年、2011年至2013年和2013年至2015年),主要纳入了15至44岁美国女性,评估输卵管绝育术后的怀孕率。
√研究结果
研究结果表明,在NSFG四波数据中,2.9%~5.2%的参与者报告在接受输卵管绝育术后怀孕。
在最近一次调查(2013~2015 年)中,估计在输卵管绝育术后前12个月内怀孕的参与者比例为2.9%;
在输卵管绝育术后120个月内怀孕的参与者比例达到8.4%。
同时,在所有检查的时间点上,相较于接受间隔手术的女性,接受产后输卵管绝育术后怀孕的几率显著降低;但在多变量模型中,这种差异并不明显。
此外,研究团队发现,在多变量模型中,怀孕几率随着输卵管绝育时年龄的增长而降低。
值得一提的是,在这篇文章中用到了一个免费公共数据库——NSFG,老郑去它的官网看了一下,页面和NHANES数据库很像,还支持数据免费下载,有兴趣可以探索下。
公共数据库研究存在的问题与解决方法
√风险暴露时间不同
对于本研究来说,要想在研究输卵管绝育术的失败率,仅分析结扎后怀孕的女性人数和比例是不够的,还需要统一所有参与者从结扎术开始到研究结束的随访时间。
但研究团队使用的四波NSFG的数据时间跨度不等,导致参与者的随访时间差异较大,因此她们暴露于怀孕风险的时间长度也不同。
为了准确评估输卵管结扎术后的怀孕风险,研究团队采用了生存分析方法,该方法消除了时间长短的差异,同时还能考虑年龄、种族、教育程度等其他可能对怀孕风险产生影响的因素。
√存在回忆偏差和数据缺失
在回顾性数据分析中,回忆偏差和数据缺失是最常见的问题,在本研究中同样存在。
为了解决这些问题,研究团队进行了以下操作:
数据的筛选和排除:排除了那些输卵管结扎后怀孕日期被估算或结扎日期缺失的女性,以确保分析的准确性;
时间追踪与数据审查:仅在女性处于怀孕风险期内追踪从绝育手术到怀孕的时间,并仔细审查数据,结合具体的月份和日期进行精确处理;
精确处理时间关系:由于存在绝育手术当月或更早受孕但在手术后才被发现的妊娠案例,研究者将其视为绝育手术后的失败事件(即怀孕),因为它们可能发生在手术之前;
区分绝育类型与依赖回忆信息:为了准确评估绝育效果,区分了产后绝育和间隔绝育为两类绝育类型。尽管这一区分依赖于女性对妊娠与结扎时间的回忆,但研究者还是采取了一系列措施来尽量减少回忆偏差的影响;
处理数据缺失与不应答:将任何缺失的怀孕或流产记录视为未怀孕处理,最大限度地减少由此导致的分析偏差。
公共数据库挖掘虽然快捷,但要想得到有意义的研究结果,需要针对数据可能出现的偏倚、数据缺失等问题进行处理。
对于这些问题,我们可以采用的统计学方法有很多,但要想找到最合适的一种很难。
老郑解读
这篇文章关于公共数据库分析的细节处理还是太针对这篇文章,很多人看了可能觉得没有什么帮助,就公共数据库这点,我觉得大家可以看看我之前写得一篇关于公共数据库解读的文章,写了很多关于它的统计学方法。
如何用统计学将公共数据装扮成一篇JAMA子刊文章?且看国内顶尖统计学家的杰作
这篇文章集合了公共数据库常见的统计学方法:包括缺失数据的分析、趋势性检验、限制性立方条样图、亚组分析、敏感性分析、缺失数据填补、多模型构建策略、交互分析。
我认为,公共数据库挖掘,最重要的是它的数据真实性。在这一点上,是自己小规模采集的数据不可比的,也是能够发文的重要原因。
至于统计学方法,其实没有学不会的,手搓都可以搞定!
朋友们可以更多地去找一些免费的公共数据库,去找一些自己的想法,想办法写成文章。