理解 LLM 嵌入:AI 悄悄说的那种语言
从 Word2vec 到现代大模型,嵌入技术如何把文字变成能捕捉意义的数字,让 AI 真正『懂』语言。
URL Source: https://medium.com/@miaoli1315/understanding-llm-embeddings-the-hidden-language-ai-speaks-9d2e46295beb
Published Time: 2025-06-07T05:21:18Z
Markdown Content: 2025 年 6 月 7 日
—

一个高维数字空间——由 AI 生成
大语言模型如何把文字变成能承载意义的数字
ChatGPT 是怎么知道 “dog” 和 “puppy” 有关系的?Google 又怎么在你没输入精确关键词的情况下,找到相关结果?秘密就在于嵌入(embeddings)——那个让 AI 真正「理解」语言的数学基础。
你可以把嵌入想象成 AI 的通用翻译器。它把人类语言转换成计算机能处理的数字。但这些数字可不是随便排的——它们被精心编排,目的就是捕捉意义本身。
那个让计算机「大脑」宕机的问题
想象一下,你要教计算机理解 “The king walked to his castle.” 这句话。
听起来很简单对吧?但计算机只认数字。它不懂 “king” 或 “castle” 是什么意思。几十年来,这就像是拿着一本埃及象形文字写的书,去教一个只会说普通话的人。
早期的 AI 系统把单词当作随机的符号。对它们来说,“cat” 和 “king” 的相似程度,跟 “cat” 和 “dog” 是一样的。“king” 可能被编码成 1,247,而 “queen” 是 8,952。这些数字之间毫无关系,尽管我们人类都知道国王和王后是非常相关的概念。
这就造成了一个巨大的障碍:如果计算机连某些词比另一些词更相似都搞不明白,它怎么可能真正理解语言?
LLM 嵌入到底是什么?
想象一下,你整理音乐库的时候不是按艺人名字排,而是按声音排。风格相近的歌放在一起——爵士挨着蓝调,灵魂乐在附近,而金属乐离古典乐远远的。嵌入对单词和概念做的,本质上就是这个事。
LLM 嵌入是单词、短语或整段文本的向量表示。这些向量在高维空间中捕捉语义含义。
每个单词变成一串数字——通常是几百甚至几千个——它们共同表达的不仅是这个词本身,还有它的意义、语境和关联。
最神奇的是:“bank” 在 “river bank”(河岸)和 “bank account”(银行账户)里会得到不同的嵌入。AI 能自动理解语境。
数字背后的魔法
当 AI 模型处理文本时,它会遵循三个关键步骤:
第一步:拆分文本
首先,文本被切成更小的片段,叫做 token——可能是完整单词、单词的一部分,甚至单个字符。就像把一句话拆成乐高积木。
第二步:创建向量
每个 token 被转换成它的数值表示,也就是嵌入向量。现代模型的这些高维向量通常包含 768 到 4096 个数字。
第三步:捕捉关系
魔法就在这里发生。语义相似的词会在嵌入空间中聚集在一起。如果你能可视化这个高维空间,你会看到 “cat” 坐在 “dog” 旁边,两者都靠近 “pet”,而它们又都 reasonably 靠近 “animal”。

词语作为数学空间中的点
从理论到革命
多年来,研究者把单词当作孤立的符号处理。后来有人提出了一个大胆的想法:如果单词可以被表示为空间中的点,而它们的位置反映其含义呢?
获取李淼的最新文章
免费加入 Medium,获取这位作者的最新更新。
记住我,以便更快登录
2003 年,Yoshua Bengio——AI 领域的「教父」之一——创造了「词嵌入」这个词,并开发了学习分布式词表示的神经语言模型。但这些早期嵌入计算成本极高,只局限在学术圈子里。
真正的突破发生在十年后。2013 年,Google 的 Tomáš Mikolov 及其团队发布了 Word2vec,把嵌入从学术好奇心变成了实用工具。最初的论文被审稿人拒稿,代码花了数月才获批开源。但它最终彻底改变了自然语言处理。
通过分析海量文本,Word2vec 能自动发现有意义的模式。“King” 和 “crown”、“throne” 聚在一堆,而 “dog” 则跟 “bark”、“tail” 归在一起。系统仅仅通过观察哪些词在数百万句子中经常一起出现,就学会了这些关系。
向量运算的奇迹
最重要的发现是,这些词表示可以进行真正有意义的代数运算:
King — Man + Woman = Queen
这不只是数学技巧——它揭示了语言运作的某种深层规律。计算机发现,“王权” 这个概念可以和性别分离,然后重新应用,创造出 “queen”。
突然间,计算机能解词类比题了:
- Paris 之于 France,正如 _____ 之于 Italy?(Rome)
- Swimming 之于 pool,正如 _____ 之于 road?(Driving)
这些不是被编程进去的规则。计算机是通过理解概念之间的关系自己搞明白的。训练期间,Word2vec 注意到 “Paris” 和 “France” 一起出现的语境,跟 “Rome” 和 “Italy” 一起出现的语境很相似。它学到了国家-首都配对之间的数学距离在不同例子中是一致的,于是通过寻找具有相似向量关系的词来解答类比题。
理解的进化
早期方法如潜在语义分析(LSA)和奇异值分解(SVD)把每个词当作固定含义——没有灵活性,没有语境。但语言是混乱且依赖语境的。现代 LLM 嵌入更像是一位出色的语言学家,懂细微差别、讽刺、文化梗和语境。
从 Word2vec 到带注意力机制的现代 transformer,这一历程代表了人工智能史上最惊人的进步之一。它们不只是创建简单的词嵌入;它们为同一个词在不同语境中生成不同的表示。“bank” 在谈钱时是一种表示,在谈河流时是完全不同的另一种。
为什么这很重要
嵌入的发现解决了人工智能最大的难题之一:如何教机器理解意义。通过把单词、图像和概念表示为数学空间中的点,研究者搭建了一座桥梁,连接了人类理解与计算机处理。
这不仅是技术突破——也是哲学突破。它向我们揭示,意义本身可能是数学的,概念之间的关系可以被数字和方程捕捉。在教计算机理解我们的过程中,我们对理解本身的本质也有了新的认识。
下次当你和聊天机器人聊得出奇地愉快,或者搜索结果刚好正中下怀时,请感谢背后那场精妙的数学舞蹈——嵌入。在那成千上万个数字里,藏着某种接近数字化的理解——这本身就已经相当了不起了。