Lancet主刊!大语言模型普及后引用造假暴涨12倍,98.4%问题文章未被处理
2026/5/22 3:42:51 网站建设 项目流程

源自风暴统计网:一键统计分析与绘图的网站

近日,顶级医学期刊《Lancet》(医学一区top,IF=88.5)主刊发表了一篇文章。

来自哥伦比亚大学的研究团队开发了一套AI辅助的自动验证系统,对2023年1月至2026年2月间PubMed Central收录的247万篇生物医学论文、1.25亿条结构化参考文献进行了地毯式审计。

结果发现,在9710万条可验证的参考文献中,他们识别出4046条伪造引用,涉及2810篇论文

研究团队计算了每年的伪造率(含至少一条伪造引用的论文比例),结果如下:

  • 2023年:约1/2828;

  • 2025年:1/458;

  • 2026年前7周:1/277。

如果换算成更具体的数字,我们会发现伪造率从2023年的约4篇/万篇,飙升至2025年底的51.3篇/万篇,2026年初已达56.9篇/万篇。

这个增长的时间线很有意思。

拐点出现在2024年年中,ChatGPT在2022年底面世,GPT-4在2023年3月发布。

学术论文从写作到发表通常有100-200天的滞后,2024年中的陡增与这个时间线吻合。这不是巧合,这是AI大规模进入学术写作后留下的可量化痕迹。

什么叫伪造引用?

作者在参考文献里列了一篇文章——标题、作者、期刊、年份都有。但你去PubMed、Crossref、Google Scholar里搜,根本找不到。不是格式错了,是这篇文献不存在。

研究团队对系统标记的500条可疑引用进行了人工核验,3位独立评审员确认其中70%为确凿伪造。

这里有两个关键数字:精确率为91%(系统标记的引用中实际为伪造的比例),评审员之间的一致性κ=0.71。

然后出现了一个更值得注意的数字:在2810篇受影响的论文中,98.4%在审计时未收到出版商任何处理。这意味着当前审稿流程对伪造引用的检出和处理能力严重不足。

审稿人没发现,不是不认真,是审稿流程里没有“逐条验证引用”这一步。大家默认引用是真的。

为什么这么难发现?

有人可能会问,这么明显的造假,为什么审稿人没有发现?

因为这些假引用做得太像真的了,不仅主题相关,作者是真实存在的学者,而且年份合理,格式规范,肉眼很难分辨。审稿人不可能记住领域内每年发表的每一篇文献。

研究团队在原文中指出,当参考文献指向不存在的研究时,读者、审稿人和政策制定者都无法评估证据。一篇假引用,可以污染后面成百上千篇论文——已经有人在系统评价中引用了这些假文献。

同时,研究团队也承认,4046条是保守下限。他们只审计了含有有效PMID的引用,这部分占总引用的77%,书籍、网站等灰色文献被排除在外。那些做得更真的伪造引用,系统可能根本没标出来,实际数字很可能比4046条大得多。

为了避免出现虚假引用,本文的研究团队给了四条建议:

  • 在投稿阶段就集成自动引用验证,而不是等发表后;

  • 在索引服务中增加完整性元数据,让问题可以追溯;

  • 在学术诚信数据库中设立独立类别,系统追踪伪造引用;

  • 当伪造引用影响论文核心结论时,应该撤稿。

这篇《Lancet》研究最好的地方在于,它不是一个定性指控,而是一个用统计方法量化问题的尝试。它给出了伪造率的点估计、12倍增长的趋势、2024年中这个时间拐点、精确率和一致性系数。

这些数字是可以讨论、可以验证、可以更新的。

AI大规模进入学术写作已经是事实。问题在于,我们的验证机制能否跟得上潮流?


最后,在文末给郑老师我们团队打个广告吧,大家不要见怪哈!

我们将提供专业的临床试验项目设计与分析

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询