科罗拉多大学博尔德分校等机构揭开了预训练数据的叙事密码
2026/6/25 12:45:51 网站建设 项目流程

这项由美国科罗拉多大学博尔德分校、瑞士苏黎世联邦理工学院和加拿大麦吉尔大学联合完成的研究,以预印本形式发布于2026年6月,编号为arXiv:2606.19468,目前已公开于arXiv平台供学术界查阅。

我们都爱听故事。从小时候睡前的睡前故事,到朋友圈里的感人日记,再到新闻报道里的亲历叙述——故事是人类沟通最古老、也最有力的方式之一。正因如此,当人们开始使用ChatGPT这样的大型语言模型(简称大模型)来写故事、续写小说、生成剧情时,他们理所当然地期待这些模型能讲出好故事。

然而,现实往往令人失望。大模型写出来的故事常常"没有灵魂"——情节平淡、人物扁平、细节苍白。研究界把这个现象叫做"创意缺陷"。很多人把责任归咎于后续的微调阶段出了问题,但这支研究团队有不同的想法:也许问题出在更早的地方,出在大模型最开始"上学"的那个阶段——也就是预训练数据里。

大模型学习语言的方式,类似于一个孩子通过大量阅读来习得写作能力。他读了什么,他就会写什么风格的文字。如果他读的全是说明书和法律文件,你很难指望他写出一篇动人的散文。同样,如果大模型在训练时接触到的叙事内容质量参差不齐、分布失衡,它的讲故事能力自然也会受到影响。

但问题在于,到目前为止,几乎没有人系统地研究过:那些喂给大模型的海量训练数据里,到底含有多少"故事性"?这些故事性的内容是均匀分布的,还是集中在某些角落?不同来源的数据,叙事风格又有什么差异?

这支研究团队决定填上这个空白。他们选择了一个名叫DOLMA的公开预训练语料库作为研究对象。这个语料库规模极为庞大,包含超过三万亿个字(token),来源涵盖网页、新闻、百科、图书、社交媒体等十二个子类别。他们的目标,是为这片浩瀚的文字海洋绘制一张"叙事地图"——找出哪里故事多、哪里故事少,哪些地方的故事有人物情感,哪些地方的故事有具体场景。

为了完成这项工作,他们从叙事学(研究故事结构的学问)中汲取灵感,设计了一套包含11个维度的评分框架,并开发了一个名为NARRABERT的自动评分模型。最终,他们对约三百万个文本段落完成了标注,形成了一个叫做NARRADOLMA的新数据集,并对整个预训练数据库的叙事面貌进行了全面分析。

一、什么才算"讲故事"?研究团队如何给叙事打分

要研究数据里有多少叙事性,首先得回答一个基本问题:什么叫"叙事性"?

这个问题听起来简单,实际上相当复杂。一篇流水账日记算叙事吗?一则天气预报算叙事吗?一段历史教材呢?学术界为此争论了几十年。研究团队没有走极端——不把叙事当成非此即彼的东西(要么是故事,要么不是故事),而是把它理解成一个连续的、多维度的概念:每段文字都可以在"叙事性的光谱"上占据一个位置,并且在不同的叙事维度上表现不同。

打个比方,就像评价一道菜不仅仅看它"好吃不好吃",而是从色、香、味、口感、摆盘等多个维度去评价。同样地,这个研究团队把"叙事性"分解成了三大类共11个具体维度,分别考察一段文字在这些方面表现得如何。

第一大类是"能动性",也就是文章中是否有具有内心世界的人物在驱动故事。这包含五个子维度。第一个叫做"聚焦",衡量的是故事是否通过某个特定人物的眼睛来叙述——比如一篇日记里,"我走进房间,立刻感到一阵寒意",这就是高度聚焦的叙事,因为读者完全随着"我"的视角去感受世界。第二个是"内心情感",考察文章中人物的情绪状态是否被描写出来——不仅仅是"他哭了"这种外部行为,更高级的是"他感到一种难以名状的悲伤压在胸口"这种内心状态的直接呈现。第三个是"内心认知",关注的是人物的思维、推理和内心独白,比如"她反复回想那封信的措辞,总觉得哪里不对劲"。第四个是"状态变化",考察文章中是否有人物经历了某种转变——身体的、心理的、关系的或者命运上的改变。第五个是"冲突",衡量文章中是否存在张力或对抗,无论是人与人之间的冲突、人内心的挣扎,还是人与环境的对抗。

第二大类是"场景",描述的是故事世界被构建得多么清晰可感。这包含四个子维度。"具体性"考察语言是否足够具体,能让读者在脑海中形成画面——"那个破损的蓝色马克杯放在水槽边缘"比"桌上放着一个杯子"具体得多。"时间锚定"考察文章是否让读者感受到自己置身于某个特定的时间点,比如"那是2003年的夏天"就是很强的时间锚定。"空间锚定"类似,考察读者是否能感受到一个具体的地方,比如"那不勒斯狭窄的小巷里"就是强烈的空间锚定。"感官细节"考察文章是否调动了视觉、听觉、嗅觉、触觉等感官来描写场景。

第三大类是"事件关系",描述的是文章中事件之间的组织方式。这里有两个核心指标。"时间顺序"考察文章中提到的事件是否按照先后顺序排列,以及这种时间逻辑是否清晰。"因果关系"考察事件之间是否存在原因和结果的逻辑链——"他走进房间发现了那封信"与"他因为发现了那封信而心生疑虑,于是离开了",后者就有更强的因果叙事。此外,研究团队还用了一个自动化工具来统计每段文字中"事件触发词"(即动词所代表的具体事件)的密度,也就是说,文章里每个词中有多少个是在讲一件具体发生的事。

每一个前九个维度,由人类注释员在1到5分的量表上打分,表示该特征在文本中的核心程度。时间顺序和因果关系则是段落层面的比例值(0到1之间),表示段落内多少对相邻事件具有时间或因果关系。事件密度是每个词中事件触发词的比率。

为了让这套框架更直观,可以用论文开篇举的例子来理解。那段文字是这样的:"我走进面试室,立刻注意到面试官的人数是我预期的两倍。我的手开始颤抖。我坐下来,深吸一口气,不知怎地撑过了第一个问题。"这段话在"聚焦"上得4分(强烈的第一人称视角)、"情感"上得4分(颤抖的手传递了紧张感)、"认知"上得3分(有一些内心活动)、"状态变化"上得3分(从紧张到勉强撑过)、"冲突"上得3分(人与处境的对抗)。而在场景维度上,这段话的得分明显偏低——"具体性"只有3分、"时间锚定"仅1分、"空间锚定"2分、"感官细节"2分。这段话没有告诉你面试发生在哪座城市哪栋楼、是什么季节什么时刻、房间里是否有空调的嗡嗡声或咖啡的气味。这就是所谓的"叙事侧写"——这段话的叙事性高度集中在人物内心和事件推进上,但场景建构相对薄弱。

这套框架来自叙事学的经典理论,尤其借鉴了叙事学学者大卫·赫尔曼的工作,他把叙事定义为"通过一个代理人的视角,在一个有根基的世界里对事件进行有结构的排序"。研究团队把这个理论性定义翻译成了可以被人类(以及后来的机器)操作的评分标准。

二、给三千亿字打分的工程:从人工标注到AI自动评估

有了这套评分框架,下一个挑战是:怎么把它用到一个三万亿词的语料库上?

靠人工一段一段地读,显然不可能。但直接用机器,又怎么保证机器打的分是可信的?研究团队设计了一个层层递进、步步验证的流程,就像建一座桥——先用人工验证地基,再用大模型搭建中间的结构,最后用轻量级的小模型快速推进到终点。

首先,他们从DOLMA语料库里抽取了大约一千七百万个三句话长的文本段落,分布于约五百万个独立文档中。然后他们用一个已有的叙事分类模型对每个段落打了一个0到1的"叙事置信分"——分数越高,说明这段话越像一段有叙事内容的文字。

接着,他们从这个大池子里精心筛选出400个段落,由真人注释员按照上述11个维度逐一打分。为了保证质量,一位主要注释员对全部400个段落都做了标注,另外还有多位注释员对其中部分段落进行了交叉验证。在这个过程中,研究团队发现人与人之间的打分结果相当接近——在能动性维度上,不同注释员之间的平均一致性系数(Krippendorff's α)达到0.76;在场景维度上也有0.70。事件关系的一致性用另一种指标衡量(Cohen's κ),时间顺序达到0.60,因果关系达到0.78。这说明这套评分框架是相对客观的,不同的人对同一段话的理解大体相近。

有了400个人工标注段落后,研究团队做了一件在学术界越来越常见的事:他们请了三个大语言模型来"当助手",对更多的文本进行标注,然后把这些大模型的标注结果和人工标注进行对比,看哪个大模型表现最好。他们测试的三个模型分别是Claude Sonnet 4.6、Qwen3-235B-A22B和Gemma4-31B。测试结果显示,没有哪个模型在所有维度上都明显优于其他两个,但综合来看,Gemma4-31B的表现与人工标注的吻合程度最好,同时它还有开源和成本可控的优势。于是,他们用Gemma对五千个段落进行了大规模标注,得到了一批机器生成的"教师标签"。

最后一步是把这五千个Gemma标注的样本用来训练一个小得多的模型——NARRABERT。这是一个基于RoBERTa(一种轻量级的语言理解模型)的专用分类器,配备了九个不同的评分头(对应九个叙事维度),可以在一次前向传播中同时给出所有九个维度的分数。用大模型的标注结果来训练小模型,这种方法叫做"知识蒸馏"——就像请一位资深厨师把自己的手艺教给一个学徒,让学徒日后能独立完成工作。

研究团队对NARRABERT的表现进行了独立验证,确认它的评分结果与人工标注之间的一致性系数均在0.50到0.78之间,平均绝对误差(MAE)在0.41到0.70分之间(分数范围是1到5分)。这个表现水准与大模型本身相当,说明蒸馏是成功的。唯一的薄弱环节是事件关系的分类,因为数据集中事件关系的分布极度不均衡(约95%的事件对被标为"有时间关系",约75%被标为"无因果关系"),这让分类器学习起来比较困难。

最终,NARRABERT被用来处理全部约三百万个NARRADOLMA段落,为每个段落生成了一个包含12个叙事特征的向量。在后续分析中,同一文档的多个段落的特征向量被平均,得到每个文档的叙事侧写,共约七十八万五千个文档。

三、预训练数据的叙事地图:不同来源的故事风格大相径庭

有了这七十八万五千个文档的叙事侧写,研究团队终于可以回答最关键的问题了:大模型的训练数据里,故事是怎么分布的?

他们首先把所有文档按照来源或主题进行分类。来自Common Crawl(互联网通用爬取数据)的文档被WEBORGANIZER分类器细分为24个主题,比如"旅游"、"科技"、"犯罪与法律"、"美食"等;而Reddit、Gutenberg(公版书籍)、Wikipedia(维基百科)和MegaWika(多语言百科)这四个非爬取来源则作为独立类别。接着,他们计算了每个类别在12个叙事维度上的平均得分,并用z分数(一种标准化方式,让不同维度可以放在一起比较)把结果可视化为一张热力图。

这张热力图揭示出了一个清晰的叙事生态:不同类别的文档占据着叙事空间中截然不同的位置。

能够明显看出,Reddit和Gutenberg构成了一个"高内心性"的聚类——它们在聚焦、情感和认知这三个维度上得分最高,也就是说这些文本非常擅长呈现人物的内心世界。与这个聚类相邻的是"成人内容"(Adult)和"文学"(Literature)两个类别,它们也表现出类似的高内心性特征。不过,有趣的是,尽管这四个类别都以内心性见长,它们在"场景构建"方面的表现却大相径庭——Gutenberg的场景维度相对更强,而Reddit在这方面几乎毫无建树。换句话说,Gutenberg里的公版文学不仅有丰富的内心世界,还会精心描绘一个可感知的故事世界;而Reddit上的帖子更像是人们在倾诉自己的感受,不太在意告诉读者这件事发生在哪里、什么时候、现场是什么气味。

另一个明显的聚类是以"美食与餐饮"、"时尚与美丽"、"旅游"、"家居与爱好"、"艺术与设计"为核心的"感官质感"群体。这些类别在具体性和感官细节上得分最高,却在能动性维度上相对较低。这说明美食博客、旅游攻略、家居装修指南之类的文章虽然会描写食物的色香味、旅途的风景细节,但通常不太涉及人物的内心世界。

而Wikipedia、历史类文章、政治类文章和犯罪与法律类文章则构成了"有根基的事件性"聚类——它们在状态变化、冲突、事件密度以及时间和空间锚定上得分较高,但在内心性方面几乎为零。这很好理解:维基百科告诉你"1989年11月9日,柏林墙倒塌",时间非常清晰,事件非常明确,但它不会告诉你当时站在墙边的某个人内心在想什么、感受到什么。

这些发现有一个对大模型训练很重要的启示:如果你想让大模型学会写出有内心世界的人物,你必须保证训练数据里有足够多的Reddit式和Gutenberg式内容;如果你想让它学会描写具体可感的场景,美食和旅游类文章是好的来源;如果你想让它学会讲有事件推进和时间逻辑的故事,新闻和百科类内容反而更重要。三者不可偏废,而且简单地"增加某类来源的权重"并不能一次性解决所有问题。

四、叙事不是单一的维度:预训练数据中隐藏着三条叙事轴

发现各类别之间存在差异只是第一步。研究团队还想知道:在这11个叙事维度背后,有没有更深层的结构?这些维度是互相独立的,还是有一些维度总是同步变化?

他们对10个主要叙事维度(排除了在三分之一文档中因为没有事件对而无法计算的时间顺序和因果密度)进行了主成分分析(PCA)——这是一种统计方法,专门用来在多个相互关联的变量中找出"最核心的变化轴"。就像如果你在描述一个人的外貌,可以从身高、体重、肤色、发色等很多维度来说,但"身高体重"往往会同步变化(高个子通常也更重),所以可以用"体型大小"这一个概念来概括这两个维度。

分析结果非常整洁:前三个主成分合计解释了约72%的叙事变异,也就是说,这三条"轴"已经足够描述预训练数据叙事结构的大部分变化。

第一条轴被研究团队命名为"内心性",主要反映的是聚焦、情感和认知三个维度的联合变化。一篇文章在这条轴上得分越高,说明它对人物内心世界的呈现越深入。Reddit上的个人经历帖子、Gutenberg里的经典小说,都集中在这条轴的高端。

第二条轴叫做"有根基的事件性",主要反映的是状态变化、冲突、事件密度与时间和空间锚定的联合变化。犯罪新闻、政治报道、Wikipedia条目在这条轴上得分最高——它们讲述的是"发生了什么事,在哪里,什么时候"。

第三条轴叫做"故事世界质感",主要反映的是具体性、感官细节和空间锚定的联合变化。美食内容、旅游指南、时尚文章在这条轴上领先——它们会把一道菜的颜色、温度、气味都写出来,把一个地方的街道感觉都呈现出来。

为了验证这三条轴不只是统计上的人造物,研究团队还把它们投影到了一张基于语义嵌入的文本地图上(用UMAP降维技术,把每篇文章的语义内容压缩到二维坐标里)。结果发现,第一条"内心性"轴在这张语义地图上呈现出非常清晰的空间聚类——高内心性的文章聚集在地图的一个区域,而低内心性的文章聚集在另一侧,中间有明显的渐变地带。这说明"叙事内心性"在大量预训练数据中是真实存在的结构性差异,而不仅仅是标注的产物。

更值得关注的是:没有任何一个类别在三条轴上都占据主导地位。Gutenberg在内心性和故事世界质感上很强,但在有根基的事件性上只是中等;Reddit在内心性上遥遥领先,但在另两条轴上几乎毫无建树;Wikipedia和犯罪报道在事件性上领先,但在内心性和质感上几乎为零。这意味着,如果大模型的训练数据中缺少某一类来源,它在叙事能力的某一个维度上就会出现盲区,并且这个盲区无法通过增加其他来源来弥补。

五、叙事性的分布不均衡:谁在金字塔顶端,谁被遗忘在底层

研究团队进一步分析了每个类别在三条叙事轴上的极端集中情况。他们计算了每个类别有多少比例的文档落入了整个NARRADOLMA数据集中各轴得分的前25%(即"高叙事性"区间)。如果叙事性均匀分布,每个类别应该有25%的文档进入这个区间。实际情况与这个均匀基准相比,差异相当显著。

在内心性维度上,Reddit和Gutenberg有超过60%的文档进入了前25%区间,是基准值的2.4倍。"社交生活"和"文学"类别紧随其后,都超过了40%。而另一个极端,Wikipedia只有约1%的文档进入了前25%,历史、政治和犯罪法律类别也都在10%以下徘徊。

在有根基的事件性维度上,犯罪与法律类别以约68%的高比例领先,Wikipedia和政治类别以51%和46%紧随其后,MegaWika也接近45%。反过来,在这个维度上表现最差的正是那些质感强烈的内容——美食(约7%)、时尚(约4%)、软件开发(约1%)几乎不存在于这个维度的顶端。

在故事世界质感维度上,美食(约73%)、旅游(约65%)和时尚(约62%)以压倒性优势占据顶端,艺术与设计和家居爱好也超过50%。Gutenberg在这个维度上也相当强(约41%),而Reddit出乎意料地低(约15%),软件开发(约1%)和软件(约2%)几乎可以忽略不计。

这些数据勾勒出了一幅"叙事极化"的图景:不同来源之间叙事性的集中程度差异极为悬殊,没有任何一个来源能在三个维度上全面领先。这对于大模型的训练数据策略有直接影响——"减少百科类数据、增加书籍类数据"这样的粗粒度操作,充其量只能强化某一个叙事维度,同时可能削弱另一个维度,甚至带来意想不到的副作用。

此外,研究团队还发现了一个微妙但重要的现象:同一类别内部的叙事差异也非常巨大。以整个语料库的叙事多样性为基准(标准差为1.0),各类别内部的叙事多样性平均也高达0.87。也就是说,即使你知道一篇文章是"Reddit帖子"或者"维基百科条目",这个分类标签只能帮你消除不到15%的叙事不确定性,剩下的85%的变化仍然存在于类别内部。Reddit里既有冷静分析时事的评论,也有情绪激昂的个人经历叙述;维基百科既有以事件为主的人物传记,也有几乎完全是数字和公式的科学词条。最叙事多样的类别恰恰是那些最富叙事性的类别——Reddit(内部标准差1.07)和文学(1.00);而最单调的类别是Wikipedia(0.68)和软件开发(0.71)。换句话说,那些你最想多喂给大模型的"叙事宝库",内部其实也是最复杂的。

说到底,这项研究的核心发现是:大模型预训练数据中的叙事性,既不是均匀分布的,也不是一维的。它是一个多维度的结构,不同的叙事维度来自不同的数据来源,而单纯调整来源比例这一粗粒度的操作,既无法全面提升叙事能力,也无法精准控制模型学到的叙事风格。

这意味着,如果研究者想要有意识地影响大模型的叙事能力,就需要在数据层面做出更精细的操作——不仅要看来源,还要看每篇文档的叙事侧写,有选择地强化某些叙事维度,同时避免不必要的质量损失。NARRADOLMA和NARRABERT的公开发布,正是为这种精细操作提供了工具基础。

当然,研究团队也坦承了这项工作的局限。NARRADOLMA是对DOLMA语料库的有策略性抽样,并且刻意过采样了叙事内容,所以无法直接推断原始语料库中叙事内容的绝对比例。人工标注仅有400个段落,在如此多样化的网络文本面前显得相当有限。NARRABERT在事件关系预测方面存在较明显的噪声。研究也只涵盖了英语文本,其他语言的叙事结构可能遵循完全不同的模式。最关键的是,研究团队并没有去实际训练一个模型来验证"调整叙事性分布能否改善叙事能力"——这个因果验证留给了后续工作。

归根结底,这项工作就像是第一次为大模型的"故事营养"建立了一张详细的成分表——以前我们只知道它吃了"很多字",现在我们开始了解它吃进去的"故事养分"究竟是什么配方、来自哪里、分布是否均衡。接下来,如何根据这张成分表来调整大模型的"饮食结构",进而真正改善它的讲故事能力,是一个极具价值也极具挑战性的研究方向。

对叙事与人工智能的交叉感兴趣的读者,可以通过arXiv编号2606.19468查询这篇论文的完整版本,NARRADOLMA数据集和NARRABERT模型也已在Hugging Face平台公开,可以直接下载使用。

Q&A

Q1:NARRABERT是什么,它和普通的文本分类模型有什么不同?

A:NARRABERT是一种专门用来评估文本叙事特征的模型,基于RoBERTa结构,通过知识蒸馏用Gemma大模型的标注结果训练而来。与普通分类模型不同,它不是判断文本属于哪个类别,而是同时给出聚焦、情感、认知、冲突、场景具体性等九个叙事维度的连续评分,可以在一次运行中生成完整的"叙事侧写",适合处理大规模文本。

Q2:DOLMA预训练数据中,哪类内容的叙事性最强?

A:不同叙事维度的强项不同。Reddit和Gutenberg(公版书籍)在人物内心世界的呈现上得分最高,超过60%的文档进入整体叙事内心性的前四分之一区间。美食、旅游和时尚类内容在感官细节和场景质感上领先。而犯罪与法律、Wikipedia类内容在事件逻辑和时间空间锚定上最强。没有任何来源在所有叙事维度上同时占据主导地位。

Q3:这项叙事分析研究对大模型的训练有什么实际意义?

A:研究表明,仅靠调整某类数据来源的比重(如"多加点书籍")并不能均匀提升大模型的叙事能力,因为不同叙事维度分布在不同来源中,同一来源内部的差异也非常大。真正有效的做法是对训练数据进行更精细的叙事维度标注,有针对性地调整特定叙事特征的数据分布,而非粗粒度地增减某类来源的整体比例。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询