为什么AI能知道“猫“和“猫咪“是一回事?聊聊向量化
2026/7/3 4:17:12 网站建设 项目流程

从"猫"和"猫咪"说起

搜「猫咪图片」,AI能找出标注着「猫」的图片。

写一段产品描述,AI能自动归类到「电子产品」而不是「服装」。

问AI「怎么养猫」,能返回「猫咪喂养指南」的文章。

这些事情有个共同点:AI得知道「猫」和「猫咪」意思相近,甚至是一回事。

但AI本质上是个概率模型,它不直接"理解"文字。它眼里所有的文字都是数字。

那它怎么知道哪些词意思相近?靠的是向量化。


向量化到底是什么

向量化,英文叫 Embedding。名字不用管,说清楚是怎么回事。

向量就是一串数字。

「猫」这个词,向量化之后变成这样的一串:

[0.23, 0.87, -0.12, 0.45, ...] (一共768个数字)

「猫咪」向量化之后,也变成一串数字。因为意思相近,这两串数字在整个数组里,大部分位置的值都很接近。

意思越相近的词,它们的向量在数字空间里的"距离"就越近。

把每个词想象成地图上的一个点——意思相近的词位置离得远,不相关的词位置离得近。这张图就是那个「意义地图」的可视化:「猫」和「猫咪」紧紧挨在一起,「狗」离它们也不算远(都是宠物),但「汽车」就跑到角落去了。这就是向量化干的事——把文字变成坐标,让AI能在空间里比较它们的远近。


怎么变成向量的

大模型在预训练的时候,顺便学会了这件事。

训练数据里,「猫」和「猫咪」经常出现在差不多的上下文里——都跟「宠物」「喂养」「可爱」这些词在一起。模型就会发现,这两个词应该离得近一点。

经过海量文本的训练,模型内部自然形成了一套"意义地图"——每个词都有自己固定的坐标(向量),而且意思相近的词坐标也相近。

这套坐标不是人设计的,是模型自己从数据里"悟"出来的。

有个很出名的例子

「国王」的向量 - 「男人」的向量 + 「女人」的向量 ≈ 「皇后」的向量

模型并没有被人告诉过"国王和皇后的关系就像男人和女人的关系",但它从海量文本里自己学到了。图中四个箭头分别代表国王、男人、女人、皇后的向量方向,减去男人的向量再加上女人的向量,结果刚好指向皇后——语义关系被编码进了向量里。

向量化捕捉的是语义关系,不是字面相似度。「猫」和「猫咪」字面差了一个字,但语义几乎一样。「猫」和「猫科动物」字面差很多,但语义相关。


向量数据库是什么

向量化解决了"怎么把文字变成坐标",但还有一个问题:这些坐标存哪里?怎么快速找到"离得最近"的坐标?

这就是向量数据库的用处。

普通数据库擅长精确匹配——找标题等于「猫」的文章。向量数据库擅长语义匹配——找意思跟「猫咪喂养」最接近的文章,哪怕文章里根本没出现「猫咪」这两个字。

具体流程图上画的就是这四步:知识库里所有文档先向量化,存进向量数据库;提问时把问题也向量化;然后在向量数据库里找最接近的那几段文档;最后送给大模型当参考资料生成答案。这就是RAG(检索增强生成)的核心原理,之前有一篇文章专门讲了什么是RAG,有兴趣的小伙伴搜索我的主页查看。


向量化能干嘛

除了RAG,向量化还有很多用得到的地方。

语义搜索。搜「怎么换轮胎」,能找出「轮胎更换步骤」的文档,哪怕字面不完全匹配。

内容推荐。看完一篇讲「猫粮测评」的文章,推荐系统知道推「猫咪喂养指南」而不是「汽车维修」。

去重。两篇文章标题完全不同,但内容几乎一样,向量化之后能发现它们的向量很接近,判断为重复内容。

分类。把一段文字向量化,跟各个分类的"典型向量"比一下远近,就能自动归类。


关注小虾,一起成长,一起进化 🦐

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询