近日,一项研究在bioRxiv发表未经同行评审的预印本,题为:揭示“论文工厂”冰山:基于人工智能的癌症研究文献筛查。
“论文工厂“(Paper Mills)是专门炮制、代写假论文牟利的欺诈组织,正在成为学术界的一大毒瘤。它们不仅污染了科学的正确性,更可能误导未来的研究方向,特别是像癌症这样的重大疾病领域。
这项研究利用机器学习模型对过去25年的癌症研究文献进行了一次“大扫描”,结果显示,截止至 2025 年 3 月,中国累计发表 17.8 万篇癌症方面的研究论文,但其中高达 35%可能来自于论文工厂。
在癌症研究文献中已发现论文工厂的论文,其中一些论文表现出模板化使用的特征,句子似乎是事先预制的。
在这项研究中,研究者使用因论文工厂撤稿的癌症论文作为训练集,用于训练一个 AI 工具,以检查癌症论文的标题和摘要,判断至今已发表的癌症论文是否存在论文工厂的痕迹,模型的预测准确率达 0.91,展现出强大的判别能力。
接着,应用模型对1999年至2024年的癌症研究进行筛查后发现:
1.整体比例惊人
在所有癌症研究论文中,有 9.87%(约 26.1万篇)被模型标记为“疑似论文工厂出品”(95% CI 9.83-9.90)。
2.数量呈指数级增长
在2020年代初后,每年新发表的癌症论文中,有超过15% 是可疑论文。
1999-2022年,每年被标记的论文数量呈指数级增长;
2022年,被标记论文数量达到顶峰,16.6%;
2023-2024年,出现小幅度回落。
3.中国作者被标记论文占比最高,数量最多
每个国家被标记论文的百分比显示,来自中国的论文最常被标记,占癌症论文的35%,有177,907篇被标记,其次是伊朗(20%)、沙特阿拉伯(16%)、埃及(15%)、巴基斯坦(14%)和马来西亚(13%)。
就被标记论文的数量而言,美国是第二大国家,有10,511篇被标记的论文,但仅占美国癌症研究论文的2%。
4. 高影响因子期刊同样沦陷
论文工厂并非只活跃于低影响力期刊。在影响力排名前10%的期刊中,被标记的论文比例也在持续上升,到2022年已约占10%。
5. 特定癌症类型是重灾区
被标记的比例最高的癌症包括胃癌、骨癌、肝癌(分别占22%, 21%, 19%)。
老郑小评
这项研究发现了一个多么吓人的趋势:连那些最难发的顶级期刊里,”论文工厂“的论文也越来越多了!
这些“论文工厂”也在卷,学术野心日益膨胀。所以,期刊、审稿人和搞科研的,真的得打起精神,多留个心眼了。
总之!这样的结果触目惊心!癌症研究领域居然也成重灾区。
参考文献:Scancar B, Byrne J A, Causeur D, et al. Revealing the Paper Mill Iceberg: AI-Based Screening of Cancer Research Publications[J]. bioRxiv, 2025: 2025.08. 29.673016.
doi: https://doi.org/10.1101/2025.08.29.673016