Lancet主刊！大语言模型普及后引用造假暴涨12倍，98.4%问题文章未被处理-港品优选

源自风暴统计网：一键统计分析与绘图的网站

近日，顶级医学期刊《Lancet》（医学一区top，IF=88.5）主刊发表了一篇文章。

来自哥伦比亚大学的研究团队开发了一套AI辅助的自动验证系统，对2023年1月至2026年2月间PubMed Central收录的247万篇生物医学论文、1.25亿条结构化参考文献进行了地毯式审计。

结果发现，在9710万条可验证的参考文献中，他们识别出4046条伪造引用，涉及2810篇论文。

研究团队计算了每年的伪造率（含至少一条伪造引用的论文比例），结果如下：

如果换算成更具体的数字，我们会发现伪造率从2023年的约4篇/万篇，飙升至2025年底的51.3篇/万篇，2026年初已达56.9篇/万篇。

这个增长的时间线很有意思。

拐点出现在2024年年中，ChatGPT在2022年底面世，GPT-4在2023年3月发布。

学术论文从写作到发表通常有100-200天的滞后，2024年中的陡增与这个时间线吻合。这不是巧合，这是AI大规模进入学术写作后留下的可量化痕迹。

什么叫伪造引用？

作者在参考文献里列了一篇文章——标题、作者、期刊、年份都有。但你去PubMed、Crossref、Google Scholar里搜，根本找不到。不是格式错了，是这篇文献不存在。

研究团队对系统标记的500条可疑引用进行了人工核验，3位独立评审员确认其中70%为确凿伪造。

这里有两个关键数字：精确率为91%（系统标记的引用中实际为伪造的比例），评审员之间的一致性κ=0.71。

然后出现了一个更值得注意的数字：在2810篇受影响的论文中，98.4%在审计时未收到出版商任何处理。这意味着当前审稿流程对伪造引用的检出和处理能力严重不足。

审稿人没发现，不是不认真，是审稿流程里没有“逐条验证引用”这一步。大家默认引用是真的。

为什么这么难发现？

有人可能会问，这么明显的造假，为什么审稿人没有发现？

因为这些假引用做得太像真的了，不仅主题相关，作者是真实存在的学者，而且年份合理，格式规范，肉眼很难分辨。审稿人不可能记住领域内每年发表的每一篇文献。

研究团队在原文中指出，当参考文献指向不存在的研究时，读者、审稿人和政策制定者都无法评估证据。一篇假引用，可以污染后面成百上千篇论文——已经有人在系统评价中引用了这些假文献。

同时，研究团队也承认，4046条是保守下限。他们只审计了含有有效PMID的引用，这部分占总引用的77%，书籍、网站等灰色文献被排除在外。那些做得更真的伪造引用，系统可能根本没标出来，实际数字很可能比4046条大得多。

为了避免出现虚假引用，本文的研究团队给了四条建议：

这篇《Lancet》研究最好的地方在于，它不是一个定性指控，而是一个用统计方法量化问题的尝试。它给出了伪造率的点估计、12倍增长的趋势、2024年中这个时间拐点、精确率和一致性系数。

这些数字是可以讨论、可以验证、可以更新的。

AI大规模进入学术写作已经是事实。问题在于，我们的验证机制能否跟得上潮流？

最后，在文末给郑老师我们团队打个广告吧，大家不要见怪哈！

我们将提供专业的临床试验项目设计与分析哦

企业官网建设流程全解析