新加坡国立大学等联合绘制的这张“藏宝图“究竟藏着什么秘密?
2026/5/25 21:56:18 网站建设 项目流程

这项由新加坡国立大学、南洋理工大学、A*STAR等多家机构联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.18661,题为《AI for Auto-Research: Roadmap & User Guide》。感兴趣的读者可通过该编号在arXiv平台上查阅完整论文。

**一场关于"AI能不能帮人做科研"的大盘点**

科学研究,在大多数人眼中,是一件神秘而费力的事情。一个研究项目从萌芽到发表,往往要经历提出想法、查阅文献、写代码跑实验、画图制表、撰写论文、接受同行评审、回应审稿意见,最后才能以海报、幻灯片、视频等各种形式传播出去。这条漫长的流水线,少则数月,多则数年。

近年来,大型语言模型(简单说就是像ChatGPT这样能理解和生成文字的AI系统)突飞猛进,人们开始好奇:AI能不能帮我们把这条流水线加速,甚至干脆替我们跑完整条流水线?

这个问题不是没有答案的空想。已经有系统能以每篇15美元的成本自动生成研究论文;有系统连续运行228小时、消耗114亿个"思考单元"(即token)、产出100篇论文,平均每2.3小时一篇;还有系统在一个晚上内运行超过20次GPU实验,把论文草稿的评分从5分推到了7.5分。这些数字听起来令人瞠目,但与此同时,一个更深层的问题也随之浮现:AI生产出来的那些"研究成果",到底靠不靠谱?

正是为了回答这个问题,这批来自多所顶尖机构的研究人员系统梳理了截至2026年4月的相关进展,完成了这份跨越科研全流程的详尽分析报告。

---

**一、把科研流水线拆成八个车间**

要评估AI在科研中的能力,首先需要一张清晰的地图。研究团队把整个学术科研过程划分为四个大阶段、八个具体环节,就像把一家工厂的生产流程拆解成不同车间。

第一大阶段叫做"创作",是整个研究的生产车间,包含四个环节。第一个环节是想法生成,也就是提出研究假设和方向;第二个环节是文献综述,也就是查阅和梳理已有的研究成果;第三个环节是编程与实验,也就是把想法变成可以运行的代码并验证它;第四个环节是图表制作,也就是把实验结果转化为图、表、公式等视觉化内容。

第二大阶段叫做"写作",只有一个环节:论文写作。这个阶段把创作阶段产生的所有材料,组织成一篇逻辑清晰、有说服力的学术文章。

第三大阶段叫做"验证",包含同行评审和回复修改两个环节。论文提交后,领域内的专家会提出批评意见,作者需要回应这些意见,并根据反馈修改论文。

第四大阶段叫做"传播",也只有一个环节,但内容最丰富,涵盖把论文变成海报、幻灯片、视频、社交媒体帖子、项目网页和互动代理等各种形式。

这八个环节之间并非单向直线。审稿人的批评可能要求作者回到实验环节补充数据;传播过程中发现的歧义可能倒逼论文修改。研究团队强调,这种双向反馈正是科研实践的真实面貌,也是AI辅助系统最容易出问题的地方。

---

**二、AI工具箱里有哪些"武器"**

在正式分析每个车间之前,研究团队梳理了AI辅助科研所用到的五大技术路线,就像介绍一家工具店里的五类工具。

最简单的工具叫做"提示工程",也就是通过精心设计的指令让AI完成任务。这就好比给一个聪明但懒散的助手写一张详细的便条,告诉他"你现在是一位严谨的科学家,请用正式学术语言……"这类方法成本低、门槛低,适合头脑风暴、文字润色、评审草拟等轻量任务,但缺点是对指令措辞非常敏感,稍微换个说法结果就可能大相径庭。

第二类工具叫做"检索增强生成",缩写是RAG。这类方法允许AI在回答问题时,先去查阅外部的文献库、代码库或实验记录,再给出答案。类比一下,这就像让助手在回答你之前先去图书馆查资料,而不是全凭记忆。这种方法特别适合文献综述、引用支撑和事实核查,能大幅减少AI"胡编"的概率——但要注意,找到了正确的文献并不等于引用正确,这两件事之间还有距离。

第三类工具叫做"无训练的智能体方法"。这类工具让AI能够制定计划、调用外部工具(比如搜索引擎、代码解释器)、记住之前的操作并反复迭代,就像给AI配上了手和脚,让它能自己去操作电脑而不是只靠嘴说。这类方法是当前自动化科研系统的核心引擎,但最大的风险是:如果某一步走错了,后续所有步骤都会在错误的基础上越走越偏。

第四类工具叫做"基于训练的方法",就是用大量专业数据(比如期刊论文、同行评审记录、代码仓库)专门训练或微调AI模型,让它更擅长特定任务。这类方法效果稳定,但非常依赖训练数据的质量,容易在特定评测场景上表现出色而在真实科研中"水土不服"。

第五类是"混合方法",就是把上述几种工具组合起来用,取长补短。目前最强大的科研辅助系统基本上都采用这种路线——用检索来保证内容有据可查,用智能体来完成多步骤任务,用训练来提升特定环节的精度。

---

**三、想法生成:看起来很聪明,做起来容易翻车**

进入第一个车间——想法生成。研究团队发现,在这个环节,AI的表现最让人喜忧参半。

表面上,AI非常擅长生成看起来新颖的研究想法。一项邀请了100多位自然语言处理领域研究人员参与的大规模评测发现,AI生成的想法在新颖性评分上显著高于人类研究者的想法(统计意义上的p值小于0.05,也就是说这个结论不是偶然)。这个发现乍一看令人振奋。

然而,当研究者进一步追问"这些听起来新颖的想法,真的能变成有价值的研究成果吗",答案就没那么乐观了。另一项研究专门追踪了AI生成的想法被实际执行之后的结果,发现AI想法在执行后的质量下降幅度(-1.98分)远大于人类想法在执行后的下降幅度(-0.63分)。换句话说,AI想出的那些"惊艳点子",往往是空中楼阁——听起来很美,落地就垮。

在新颖性和可行性之间,AI系统同样面临一道难以跨越的鸿沟。IdeaBench这个专门评估想法生成的基准测试发现,许多AI系统在新颖性上的得分超过0.6,但可行性得分却低于0.5。好比一个创意策划者每天提出很多"颠覆行业"的方案,但真正能落地执行的少之又少。

更令人担忧的是多样性问题。"人工蜂巢"研究向26000个不同的问题查询了多款AI系统,发现这些系统生成的想法倾向于聚集在相似的方向上,形成所谓的"多样性坍塌"——无论调用多少个AI实例,它们最终想到的东西大同小异。这不是通过增加AI数量就能解决的结构性问题。

与此同时,评估AI想法质量本身也是一件棘手的事。研究显示,由AI担任"裁判"来评价AI想法的新颖程度,其评分结果与该想法后来在现实中产生的影响力存在负相关(相关系数-0.29)——也就是说,AI裁判越觉得某个想法新颖,这个想法往往越难转化为有影响力的研究。

不过,这个环节也有积极进展。通过让AI访问科学知识图谱(把不同研究成果的关系用图的形式表示出来)来辅助想法生成,或者通过让多个AI代理模拟学术社区中的讨论和辩论,都能在一定程度上提高想法的质量。跨领域组合创造力——也就是把来自不同学科的概念拼接在一起——也被证明能提升相似性评分约7到10个百分点。

---

**四、文献综述:进步最快,但"用错"比"找不到"更危险**

第二个车间是文献综述,也就是查阅整理前人研究的过程。研究团队认为这是八个环节中进步最快的一个,短短两年内经历了四代演进:从单次检索到结构感知、从结构感知到多代理协作、最终发展到与写作工具深度融合的编辑感知系统。

技术路线的演变大致如下:最早的系统只是做语义检索,告别关键词匹配,用向量相似度来找到相关论文;随后出现了引用图增强检索,把论文之间的引用关系纳入考虑;再往后,基于智能体的多步检索系统开始模仿人类研究者的探索方式——先提一个问题,看看结果,再提出跟进问题,不断缩小范围。

在综述生成方面,从能生成可读文本的单次生成系统,到先规划大纲再填充内容的结构感知系统,再到让不同代理分别负责检索、验证、组织和撰写的多代理系统,进展同样显著。OpenScholar这个系统发表于《自然》杂志,能够搜索4500万篇论文,在科学文献基准测试上的表现比GPT-4o高出6.1个百分点。

然而,进步背后有一个持续令人头疼的问题:引用准确性。ScholarCopilot系统的测试结果显示,AI在写作时为某个观点找到正确引用的准确率(top-1准确率)只有40.1%——这意味着近六成的引用是指向错误文献的。生成一段听起来有理有据的综述内容,比确保每一句话都对应正确来源,要容易得多。

更值得警惕的是,AI的幻觉(即凭空捏造内容)正在从明显的错误向隐蔽的错误演变。以前AI可能会引用一篇根本不存在的论文,现在它更可能引用一篇真实存在的论文,但那篇论文说的其实是另一件事。这种错误更难被发现,危害更大。

此外,现有的文献综述系统几乎都集中在机器学习和自然语言处理领域,跨领域能力(化学、生物学、物理学)基本上未经测试,很可能表现大打折扣,因为不同学科的检索基础设施和写作规范差异悬殊。

---

**五、编程与实验:表面光鲜,内里暗藏玄机**

第三个车间是编程与实验。这里的情况最能揭示AI能力边界的本质。

先说好消息。在一般软件工程任务上,AI的表现已经相当惊人。在SWE-bench Verified这个测试真实GitHub问题修复能力的基准上,顶尖系统的通过率已经超过76%。SWE-agent等工具建立了"代理-计算机接口"范式,让AI能够像人类程序员一样操作文件、运行测试、调用工具,而不只是输出一段代码文字。

然而,当任务从通用软件修复转向"实现一篇研究论文中描述的算法",情况急转直下。ResearchCodeBench专门用212个新颖机器学习实现任务来测试AI,最好的模型(谷歌的Gemini-2.5-Pro)只达到了37.3%的准确率。更值得关注的细节是:其中58.6%的错误属于"语义错误"——代码可以正常运行,程序不会报错,但它实现的是另一种算法,或者计算结果根本不是论文里说的那回事。SciReplicate-Bench在100个任务上得出的上限也大约是39%。这种"跑起来但算错了"的失败模式尤其危险,因为它不会触发任何报错警告,却可能让后续的所有分析都建立在错误的基础之上。

在实验执行和调度方面,自动化程度已经相当高。有系统能够在闭环中维持每小时约12次实验的节奏,并且已经产出了在学术会议上被接受的论文。但是,能够高速执行预先设计好的实验,和能够决定"接下来该跑哪个实验、为什么",是完全不同的两件事。前者AI做得越来越好,后者——也就是实验规划,即如何从结果中判断方向、如何设计能真正区分假设的对照实验——仍然强烈依赖人类的科学判断。

一个令人警觉的数据:对MLR-Bench(包含201个任务的机器学习研究基准)的分析显示,完全自主运行的系统产出的结果中,有80%是捏造的。另一项研究发现,下游的审稿流程只能发现大约一半的方法论问题。这意味着错误会像滚雪球一样,在流水线中越积越大,越来越难被发现。

当然,也有令人振奋的案例。FunSearch系统把AI代码生成嵌入进化搜索循环,真实地发现了数学领域的新成果。但这个成功的关键并不是AI代码生成能力有多强,而是"生成+搜索+自动评估"三者的紧密结合——孤立地看,任何一个环节都不足以完成这项任务。

---

**六、图表制作:成长最快的新兴车间**

第四个车间是图表制作,包括方法示意图、结果折线图、对比表格、数学公式和算法伪代码。这是八个环节中从零起步速度最快的一个——第一批专用工具出现在2025年末,但到论文截稿时,已经有超过20个系统覆盖了图、表、公式和编辑等各类任务。

最容易处理的是标准数据可视化,比如用matplotlib或seaborn画折线图、柱状图。有系统在这类任务上的代码执行通过率超过90%,多代理协作方案能把基准分数提升40%以上。这类任务之所以相对容易,是因为输入(结构化数据)和输出(可执行代码)都有明确的规范,错误也能通过运行代码本身来检验。

然而,方法框架图和体系结构示意图就困难得多。这类图需要在空间上正确组织信息流、使用领域特定的符号,并符合特定论文的视觉惯例。AutoFigure-Edit等系统能从长文本生成可编辑的SVG科学示意图,方向很有价值,但"可编辑"本身就暗示着它不能直接用作终稿——还需要人工调整。

表格生成比图形生成更难,因为科学比较表格不只是格式问题:它需要理解哪些方法之间的比较是有意义的,如何公平地设定对比轴,引用是否完整,数字是否正确转录。一项专门评估AI设计消融研究(一种特殊的对比实验,用来验证某个设计选择的贡献)的研究发现,AI给出的实验设计方案与人类专家的判断之间存在显著差距。

对于数学公式、TikZ图形(一种用代码绘制矢量图的工具)和算法伪代码,情况更加微妙。TeXpert的测试结果显示,LaTeX代码生成的准确率随任务复杂度急剧下降:简单级别78.8%,中等级别58.7%,困难级别只有17.5%(或15%,视测试集而定)。原因在于,这类任务要求语法和语义同时精确——一个符号位置放错,可能就改变了整个公式的数学含义。

---

**七、论文写作:已经很流畅,但流畅不等于深刻**

第二大阶段的核心是写作。大规模语料分析估计,可检测到AI修改痕迹的计算机科学论文摘要比例高达17.5%,生物医学摘要为13.5%;而一项2025年《自然》杂志调查发现,超过一半的研究者自报曾在写作中使用AI帮助。AI写作辅助已经深度嵌入日常科研实践。

目前,半自动写作辅助已相当成熟。Grammarly、Writefull、Paperpal等商业工具支持段落生成、语言润色、引用插入和风格调整;PaperDebugger能在Overleaf(一个在线LaTeX写作平台)内直接运行多个专门代理,模拟审稿人、写作改进建议者和评分者的角色。这类工具的主流方向已经从"AI替你写"转向"AI帮你写"——AI处理机械性的局部操作,研究者保留对论证框架、实验解读和最终结论的控制权。

在全自动论文生成方面,CycleResearcher系统生成的论文在ICLR评分体系(国际学习表征会议的评分标准,满分10分)上平均得到5.36分,而被接受论文的平均分约为5.69分。这个差距看起来不大,但研究团队指出,这0.33分的差距恰恰指向了AI最难突破的短板:论证深度、实验严谨性和对审稿人提问的预判能力。说白了,AI能把论文写得读起来像那么回事,但真正内行的审稿人一眼就能看出里面缺少那种"这个人真的深刻理解了为什么这么做"的论证质感。

APRES系统采用了一个有趣的策略:从现有论文中挖掘与引用次数高度相关的评审标准,然后用这些标准来修改论文,结果人类专家在79%的情况下更倾向于选择修改后的版本。这说明有据可查的标准是可以被优化的,但研究的核心创新和实验设计不可替代。

有一个令人不安的现象被研究团队特别指出:AI写作的核心失效模式不是语法错误,而是"有说服力的空话"——文字流畅、格式规范、引用看起来有根有据,但实质论证单薄,证据支撑不足。更进一步的调查还发现,AI使用可能带来"中庸之作泛滥"的问题:产量增加,但文章的论证质量不升反降,而且AI生成的复杂语言不一定带来更高的投稿接受率。

---

**八、同行评审:AI当裁判,分数给高了,还容易被骗**

第三大阶段是验证,第一个环节是同行评审。评审过程中,AI能做的事情越来越多,但能安心信任的场景其实非常有限。

在辅助人类审稿人方面,有强有力的证据支持AI的价值。在ICLR 2025进行的一项随机对照试验覆盖了22467份评审,结果显示,给审稿人提供AI生成的评审反馈后,89%的案例中评审质量得到提升,审稿人在26.6%的情况下主动更新了自己的评审意见,而且这一过程没有影响论文的最终接受率。这是到目前为止最强的实证支持:AI最适合的角色是帮助审稿人做得更好,而不是替代他们。

斯坦福代理审稿人系统在评分相关性上达到了与人类审稿人之间相当的水平(斯皮尔曼相关系数0.42,人类与人类之间约0.41)。但研究团队警告:相关性只是一个很窄的指标,它无法衡量评审是否公正、是否抓住了核心问题,以及是否能识别出决定性的方法论缺陷。

独立运行的AI审稿人则存在明显问题。一项测试显示,AI审稿人给出的平均分是6.86,而人类审稿人的平均分是5.70;更严重的是,被拒绝的论文中有95.8%被AI审稿人错误地评为"可接受"。这意味着如果让AI单独做投稿决定,大量质量不足的论文将被错误放行。

对抗性攻击是另一个令人忧虑的方向。研究人员发现,在论文中嵌入白色背景上的白色文字(肉眼看不见但AI会读取)可以把评分推高到满分10分;在论文中插入特定的"有利"措辞可以使评分提高1.24到2.80分;仅仅操控5%的评审就能改变12%的排名。更令人沮丧的是:所有五个当前最先进的AI文字检测工具,对经过AI润色的评审文本都会产生误判,无法可靠识别。

这意味着AI参与评审已经是现实,治理却严重滞后。"AI评审抽奖"研究估计,ICLR 2024中至少15.8%的评审经过AI辅助,49.4%的投稿收到了至少一份AI辅助评审。一个主要会议在2026年因AI使用违规拒绝了497篇论文。问题的规模已经超出了靠检测手段能处理的范围。

---

**九、回复修改:最年轻的车间,最关键的盲区**

验证阶段的第二个环节是回复修改,也就是作者针对审稿意见撰写回应并修改论文。这是整个科研流程中对AI支持最薄弱的环节之一,目前专用工具不超过10个,但重要性却极高。

分析ICLR 2024和2025的数据发现,提交回复后,75%到81%的评分保持不变,17%到23%有所提升,只有约1%下降。最常见的变化是从5分升到6分——恰好跨越了"可能被拒"和"可能被接受"的分界线。换句话说,对于边缘论文来说,一篇好的回复可以决定最终命运。

目前的自动化回复系统已经从直接生成文本进化到更有结构的流程:先把审稿意见分解成具体关切点,再检索支撑证据,然后规划回复策略,最后生成回复文本。RebuttalAgent采用了"心智理论"方法,尝试模拟审稿人的视角来撰写有针对性的说服性回复,据报道平均质量提升了18.3%。DRPG系统的规划准确率超过98%,回复质量超过人类平均水平。

然而,有一个根本性的局限目前无法克服:当审稿人要求补充实验时,AI无法自己去跑那些实验。从回复阶段倒回实验阶段的反馈闭环,在现有系统中几乎没有被自动化——这是整个科研流水线中最重要的未填坑之一。

更值得警惕的是问责问题。一项对ICLR 2025的审计发现,作者在回复中平均做出11.8个承诺,但其中约25%在最终定稿版本中没有兑现,未完成的补充实验是最常见的失信类别。AI系统可以轻松生成听起来负责任的承诺,但无法保证这些承诺被执行。

---

**十、传播:成本最低,信任最难**

第四大阶段是传播,也就是把论文转化为各种公众可访问的格式。这个阶段的好消息是成本已经极低:Paper2Poster系统能以每张海报0.005美元的成本生成学术海报,用到的token数量比直接调用GPT-4o少87%;8B参数的小模型在幻灯片生成上的表现可以与大型前沿模型媲美。

在海报生成方面,从最初的一次性转换,到现在的可编辑、有美学意识的多代理协作,进展明显。APEX支持交互式海报编辑,让研究者能在生成基础上精细调整。PosterOmni统一了六种不同的海报操作任务。

幻灯片生成已经发展出多个成熟方向:根据渲染结果而非内部推理来修改幻灯片;根据用户单个示例的风格偏好来定制生成;支持自然语言指令直接编辑幻灯片等。

视频生成则是最复杂的格式,因为它需要同步协调幻灯片、字幕、语音旁白、视角切换和节奏控制四个以上的独立维度,任何一个维度的错误都会影响整体效果。目前的视频生成系统被研究团队描述为"第一稿生成工具",而不是"发布级成品工具"。

社交媒体和网页传播目前是最欠缺专用工具的子方向。将一篇论文改写成一条X(原Twitter)推文,或者一篇面向公众的博客帖子,需要非常精细的受众建模:同一个研究成果,面向机器学习从业者、面向记者和面向普通公众,需要用完全不同的侧重点和语言风格来表达,不能简单化处理。

一个新兴方向是把论文转化为"可交互代理"——不只是让人阅读论文,而是让人能直接"问"论文。Paper2Agent系统将论文和对应代码库封装成一个具有工具调用能力的交互代理,用户可以用自然语言和这篇论文的方法直接交互。这重新定义了"传播"的含义:论文不再只是读物,而是可以被查询和调用的服务。

在所有传播格式中,最核心的挑战不是生成成本,而是可信度。传播材料往往独立于原始论文流通,一张过度简化的海报或一条夸大结论的推文,可能会在公众中造成对研究的误读,而这种误读比没有传播危害更大。因此,研究团队认为,传播阶段的AI最应该扮演的角色是"草稿起草者",最终的内容核实和发布决定权应当保留给研究者本人。

---

**十一、端对端系统:野心很大,闭环很难**

在分析完各个独立环节之后,研究团队专门讨论了那些试图打通整条流水线的"端对端系统"。这类系统的共同目标是:给定一个研究方向,自动完成从想法到论文的全过程,甚至延伸到评审模拟和传播。

这类系统可以分成四种架构类型。顺序流水线型系统把各个环节串联起来,前一个环节的输出就是下一个环节的输入,AI Scientist就是这种范式的开创者。搜索和自我改进型系统引入分支探索机制,像在代码空间中做树搜索一样在研究思路空间中探索,AI Scientist v2走的就是这条路。技能库和工具集成型系统把科研操作封装成可复用的技能模块,ARIS就拥有31个这样的技能,能把一份草稿从5分推到7.5分。多代理和社区规模型系统则模拟整个学术社区——不同代理扮演不同角色,VirSci、ResearchTown等系统甚至能模拟论文提交、评审和修改的完整社区交互。

这些系统展示了令人印象深刻的单点能力,但研究团队识别出了它们共同的核心弱点:状态追踪缺失。也就是说,大多数系统没有在整个流程中维护一个可追溯的"研究状态"——假设从哪里来、证据是什么、代码实现了什么、图表代表了什么、论文声明了什么、评审说了什么、回复承诺了什么、修改做了哪些。每个环节产出一个"看起来合理"的输出,但各环节之间的一致性没有被系统性地保证。这就像是一个流水线上的每个工人都按自己的理解做事,但没有人负责确认整条线做的是同一件产品。

---

**十二、五条贯穿所有车间的规律**

把八个环节的分析综合起来,研究团队提炼出五条跨越整个科研流程的核心规律。

第一条规律:AI制造文物的速度超过验证这些文物的速度。无论是想法、综述、代码还是论文,AI都能比人更快地产出"看起来合理"的内容,但验证这些内容是否真正正确、新颖、有意义,AI的能力远远跟不上生产速度。一旦进入自动化流水线,这种不对等会被逐级放大。

第二条规律:人类主导的协作是目前最可靠的部署模式。在所有已验证的实际部署案例中,效果最好的都不是"AI完全自主",而是"AI辅助人类"。AI最适合处理机械性、重复性、有明确反馈的任务,而人类必须保留对判断、解读、实验设计、论证和最终责任的控制权。

第三条规律:能力边界在开放式任务上最为陡峭。AI在结构化、有明确反馈的任务上表现很好,但在需要隐性领域知识、因果推理、长期反馈或真正科学判断的任务上,性能急剧下降。研究编程这个最具代表性的例子,再次印证了这一点:76%对37%。

第四条规律:有效系统越来越依赖"探索-执行-验证"三层架构。最强的科研辅助系统不是单一的生成模型,而是把搜索探索、工具执行和结果验证三层紧密结合的复合系统。更多代理并不等于更好效果,关键是架构是否匹配任务的结构,以及是否有可靠的验证层。

第五条规律:AI使用已经成为治理问题,而不只是检测问题。AI辅助科研的渗透率已经超出了靠技术检测手段能够处理的范围。现有的检测工具误报率高、鲁棒性低,更根本的问题是:应该如何定义"允许的AI使用边界",谁应该对AI生成的声明、引用、承诺和公开摘要负责,如何在支持合理写作辅助的同时遏制系统性滥用。

---

**十三、还没有人解决的八大难题**

研究团队最后列出了这个领域尚未解决的核心挑战,这些挑战既是研究前沿,也是理解AI辅助科研局限性的关键坐标。

其一,跨阶段的忠实性问题。当研究成果从一个环节流向下一个环节,如何保证信息不被扭曲或遗失?假设、证据、代码、图表、论文声明和公开摘要之间,需要有可追溯的链条。

其二,科学判断和新颖性评估问题。研究质量不能被简化为表面新颖性或评分高低。如何评估一个想法是否真的有价值,仍然是AI难以自主完成的判断。

其三,验证、可重复性和问责问题。从可以运行的代码到可以信赖的结论,中间有一道宽阔的鸿沟。PaperBench的测试结果显示,即便是复现已有论文的实验,AI系统的表现也远低于人类水准。

其四,引用、版本控制和来源追溯问题。同一篇研究可能以预印本、会议版、期刊版等多种形式存在,元数据各有不同。AI系统需要把引用当作版本化的来源定位问题来处理,而不只是格式化任务。

其五,治理、披露和研究诚信问题。谁应该在何种情况下披露AI的参与?哪些使用是允许的,哪些应该被限制?如何设计既能遏制系统性滥用又不误伤正常辅助使用的政策?

其六,跨领域推广和基础设施获取问题。绝大多数系统和基准集中在机器学习和自然语言处理领域,化学、生物、物理、医学等领域面临完全不同的证据标准和实验基础设施。如果先进AI工具只有资源充足的机构才能使用,科研自动化可能加剧而非缩小现有的科研不平等。

其七,人类专业能力和认知主权问题。如果一个初级研究者把文献综述、实验规划、论文写作和审稿回复全部外包给AI,他/她还能建立起真正的领域判断力吗?短期生产力的提升可能以长期专业能力的退化为代价。

其八,走向可靠的AI辅助科研。研究团队认为,近期的合理目标不是完全自主的AI科学家,而是"可靠的人类主导科研自动化":在全链路保持可追溯性,尽可能用执行和检索结果替代纯文字自我评判,在阶段衔接处设置人工检查点,并让AI的介入对读者、审稿人和机构保持透明。

---

归根结底,这份长达65页的报告做了一件特别有价值的事:它不是在鼓吹AI将要颠覆科研,也不是在简单否定AI的价值,而是系统地画出了一张"哪里AI真的在帮忙、哪里它还在帮倒忙"的地图。

对于普通读者来说,这份地图传递的核心信息是:AI确实在降低科研的机械性门槛,让更多人能以更低的成本开展研究,但"能产出"和"产出的是好东西"是截然不同的两件事。流水线跑得更快了,但每一个环节的质量把关,仍然需要真正懂科研的人来完成。

对于科研从业者来说,这意味着AI最有价值的角色是扩大能力边界,而不是取代判断能力。对于政策制定者来说,治理的核心问题不是"AI有没有参与",而是"AI参与的方式是否保留了科学诚信的本质"。

有兴趣深入了解每个环节的具体工具、基准测试和技术细节的读者,可以通过arXiv编号2605.18661查阅完整论文,项目主页也在持续更新。

---

Q&A

Q1:AI自动科研系统能真正取代人类研究员吗?

A:目前完全取代是不现实的。AI在机械性、重复性任务上表现不错,但在需要科学判断、实验设计和责任承担的核心环节上仍有明显短板。这份报告的核心结论是:目前最可靠的部署模式是人类主导的协作,而不是完全自主的AI科研。

Q2:AI自动生成的论文能通过同行评审吗?

A:偶尔能,但远未达到可靠水准。CycleResearcher系统生成的论文在ICLR评分标准上平均得5.36分,被接受论文的平均分约5.69分,差距在于论证深度和实验严谨性。更严重的问题是AI审稿人本身存在打分偏高和易被对抗性攻击操控的缺陷,使得整个评审环节的可信度受到影响。

Q3:AI辅助写作算学术不端行为吗?

A:这个问题目前没有统一答案,取决于具体使用方式和机构政策。报告指出,检测AI文字的工具误报率高,所以主要科研机构正在从"检测AI使用"转向"要求披露AI使用"。语法润色和完整论证替代之间有本质区别,研究者对AI生成的内容始终负有责任。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询