2025年6月7日

理解 LLM 嵌入：AI 悄悄说的那种语言

从 Word2vec 到现代大模型，嵌入技术如何把文字变成能捕捉意义的数字，让 AI 真正『懂』语言。

URL Source: https://medium.com/@miaoli1315/understanding-llm-embeddings-the-hidden-language-ai-speaks-9d2e46295beb

Published Time: 2025-06-07T05:21:18Z

Markdown Content: 2025 年 6 月 7 日

—

一个高维数字空间——由 AI 生成

大语言模型如何把文字变成能承载意义的数字

ChatGPT 是怎么知道 “dog” 和 “puppy” 有关系的？Google 又怎么在你没输入精确关键词的情况下，找到相关结果？秘密就在于嵌入（embeddings）——那个让 AI 真正「理解」语言的数学基础。

你可以把嵌入想象成 AI 的通用翻译器。它把人类语言转换成计算机能处理的数字。但这些数字可不是随便排的——它们被精心编排，目的就是捕捉意义本身。

那个让计算机「大脑」宕机的问题

想象一下，你要教计算机理解 “The king walked to his castle.” 这句话。

听起来很简单对吧？但计算机只认数字。它不懂 “king” 或 “castle” 是什么意思。几十年来，这就像是拿着一本埃及象形文字写的书，去教一个只会说普通话的人。

早期的 AI 系统把单词当作随机的符号。对它们来说，“cat” 和 “king” 的相似程度，跟 “cat” 和 “dog” 是一样的。“king” 可能被编码成 1,247，而 “queen” 是 8,952。这些数字之间毫无关系，尽管我们人类都知道国王和王后是非常相关的概念。

这就造成了一个巨大的障碍：如果计算机连某些词比另一些词更相似都搞不明白，它怎么可能真正理解语言？

LLM 嵌入到底是什么？

想象一下，你整理音乐库的时候不是按艺人名字排，而是按声音排。风格相近的歌放在一起——爵士挨着蓝调，灵魂乐在附近，而金属乐离古典乐远远的。嵌入对单词和概念做的，本质上就是这个事。

LLM 嵌入是单词、短语或整段文本的向量表示。这些向量在高维空间中捕捉语义含义。

每个单词变成一串数字——通常是几百甚至几千个——它们共同表达的不仅是这个词本身，还有它的意义、语境和关联。

最神奇的是：“bank” 在 “river bank”（河岸）和 “bank account”（银行账户）里会得到不同的嵌入。AI 能自动理解语境。

数字背后的魔法

当 AI 模型处理文本时，它会遵循三个关键步骤：

第一步：拆分文本

首先，文本被切成更小的片段，叫做 token——可能是完整单词、单词的一部分，甚至单个字符。就像把一句话拆成乐高积木。

第二步：创建向量

每个 token 被转换成它的数值表示，也就是嵌入向量。现代模型的这些高维向量通常包含 768 到 4096 个数字。

第三步：捕捉关系

魔法就在这里发生。语义相似的词会在嵌入空间中聚集在一起。如果你能可视化这个高维空间，你会看到 “cat” 坐在 “dog” 旁边，两者都靠近 “pet”，而它们又都 reasonably 靠近 “animal”。

词语作为数学空间中的点

从理论到革命

多年来，研究者把单词当作孤立的符号处理。后来有人提出了一个大胆的想法：如果单词可以被表示为空间中的点，而它们的位置反映其含义呢？

获取李淼的最新文章

免费加入 Medium，获取这位作者的最新更新。

记住我，以便更快登录

2003 年，Yoshua Bengio——AI 领域的「教父」之一——创造了「词嵌入」这个词，并开发了学习分布式词表示的神经语言模型。但这些早期嵌入计算成本极高，只局限在学术圈子里。

真正的突破发生在十年后。2013 年，Google 的 Tomáš Mikolov 及其团队发布了 Word2vec，把嵌入从学术好奇心变成了实用工具。最初的论文被审稿人拒稿，代码花了数月才获批开源。但它最终彻底改变了自然语言处理。

通过分析海量文本，Word2vec 能自动发现有意义的模式。“King” 和 “crown”、“throne” 聚在一堆，而 “dog” 则跟 “bark”、“tail” 归在一起。系统仅仅通过观察哪些词在数百万句子中经常一起出现，就学会了这些关系。

向量运算的奇迹

最重要的发现是，这些词表示可以进行真正有意义的代数运算：

King — Man + Woman = Queen

这不只是数学技巧——它揭示了语言运作的某种深层规律。计算机发现，“王权” 这个概念可以和性别分离，然后重新应用，创造出 “queen”。

突然间，计算机能解词类比题了：

Paris 之于 France，正如 _____ 之于 Italy？（Rome）
Swimming 之于 pool，正如 _____ 之于 road？（Driving）

这些不是被编程进去的规则。计算机是通过理解概念之间的关系自己搞明白的。训练期间，Word2vec 注意到 “Paris” 和 “France” 一起出现的语境，跟 “Rome” 和 “Italy” 一起出现的语境很相似。它学到了国家-首都配对之间的数学距离在不同例子中是一致的，于是通过寻找具有相似向量关系的词来解答类比题。

理解的进化

早期方法如潜在语义分析（LSA）和奇异值分解（SVD）把每个词当作固定含义——没有灵活性，没有语境。但语言是混乱且依赖语境的。现代 LLM 嵌入更像是一位出色的语言学家，懂细微差别、讽刺、文化梗和语境。

从 Word2vec 到带注意力机制的现代 transformer，这一历程代表了人工智能史上最惊人的进步之一。它们不只是创建简单的词嵌入；它们为同一个词在不同语境中生成不同的表示。“bank” 在谈钱时是一种表示，在谈河流时是完全不同的另一种。

为什么这很重要

嵌入的发现解决了人工智能最大的难题之一：如何教机器理解意义。通过把单词、图像和概念表示为数学空间中的点，研究者搭建了一座桥梁，连接了人类理解与计算机处理。

这不仅是技术突破——也是哲学突破。它向我们揭示，意义本身可能是数学的，概念之间的关系可以被数字和方程捕捉。在教计算机理解我们的过程中，我们对理解本身的本质也有了新的认识。

下次当你和聊天机器人聊得出奇地愉快，或者搜索结果刚好正中下怀时，请感谢背后那场精妙的数学舞蹈——嵌入。在那成千上万个数字里，藏着某种接近数字化的理解——这本身就已经相当了不起了。

#ai #llms

原文发布于 Medium.