为什么AI能知道“猫“和“猫咪“是一回事？聊聊向量化-港品优选

从"猫"和"猫咪"说起

搜「猫咪图片」，AI能找出标注着「猫」的图片。

写一段产品描述，AI能自动归类到「电子产品」而不是「服装」。

问AI「怎么养猫」，能返回「猫咪喂养指南」的文章。

这些事情有个共同点：AI得知道「猫」和「猫咪」意思相近，甚至是一回事。

但AI本质上是个概率模型，它不直接"理解"文字。它眼里所有的文字都是数字。

那它怎么知道哪些词意思相近？靠的是向量化。

向量化到底是什么

向量化，英文叫 Embedding。名字不用管，说清楚是怎么回事。

向量就是一串数字。

「猫」这个词，向量化之后变成这样的一串：

[0.23, 0.87, -0.12, 0.45, ...] （一共768个数字）

「猫咪」向量化之后，也变成一串数字。因为意思相近，这两串数字在整个数组里，大部分位置的值都很接近。

意思越相近的词，它们的向量在数字空间里的"距离"就越近。

把每个词想象成地图上的一个点——意思相近的词位置离得远，不相关的词位置离得近。这张图就是那个「意义地图」的可视化：「猫」和「猫咪」紧紧挨在一起，「狗」离它们也不算远（都是宠物），但「汽车」就跑到角落去了。这就是向量化干的事——把文字变成坐标，让AI能在空间里比较它们的远近。

怎么变成向量的

大模型在预训练的时候，顺便学会了这件事。

训练数据里，「猫」和「猫咪」经常出现在差不多的上下文里——都跟「宠物」「喂养」「可爱」这些词在一起。模型就会发现，这两个词应该离得近一点。

经过海量文本的训练，模型内部自然形成了一套"意义地图"——每个词都有自己固定的坐标（向量），而且意思相近的词坐标也相近。

这套坐标不是人设计的，是模型自己从数据里"悟"出来的。

有个很出名的例子

「国王」的向量 - 「男人」的向量 + 「女人」的向量 ≈ 「皇后」的向量

模型并没有被人告诉过"国王和皇后的关系就像男人和女人的关系"，但它从海量文本里自己学到了。图中四个箭头分别代表国王、男人、女人、皇后的向量方向，减去男人的向量再加上女人的向量，结果刚好指向皇后——语义关系被编码进了向量里。

向量化捕捉的是语义关系，不是字面相似度。「猫」和「猫咪」字面差了一个字，但语义几乎一样。「猫」和「猫科动物」字面差很多，但语义相关。

向量数据库是什么

向量化解决了"怎么把文字变成坐标"，但还有一个问题：这些坐标存哪里？怎么快速找到"离得最近"的坐标？

这就是向量数据库的用处。

普通数据库擅长精确匹配——找标题等于「猫」的文章。向量数据库擅长语义匹配——找意思跟「猫咪喂养」最接近的文章，哪怕文章里根本没出现「猫咪」这两个字。

具体流程图上画的就是这四步：知识库里所有文档先向量化，存进向量数据库；提问时把问题也向量化；然后在向量数据库里找最接近的那几段文档；最后送给大模型当参考资料生成答案。这就是RAG（检索增强生成）的核心原理，之前有一篇文章专门讲了什么是RAG，有兴趣的小伙伴搜索我的主页查看。

向量化能干嘛

除了RAG，向量化还有很多用得到的地方。

语义搜索。搜「怎么换轮胎」，能找出「轮胎更换步骤」的文档，哪怕字面不完全匹配。

内容推荐。看完一篇讲「猫粮测评」的文章，推荐系统知道推「猫咪喂养指南」而不是「汽车维修」。

去重。两篇文章标题完全不同，但内容几乎一样，向量化之后能发现它们的向量很接近，判断为重复内容。

分类。把一段文字向量化，跟各个分类的"典型向量"比一下远近，就能自动归类。

关注小虾，一起成长，一起进化 🦐

企业官网建设流程全解析

从"猫"和"猫咪"说起

向量化到底是什么

怎么变成向量的

向量数据库是什么

向量化能干嘛

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

从"猫"和"猫咪"说起

向量化到底是什么

怎么变成向量的

向量数据库是什么

向量化能干嘛

热门文章

文章分类

标签云

相关文章

LINUX高通平台交叉编译地图软件PROJ

Java 必看：如何正确重写 hashCode() 和 equals() 方法？

Java 集合：哪些集合必须重写 equals() 和 hashCode()？

需要专业的网站建设服务？