词元（Token）到底是什么？

当你与ChatGPT聊天，或者让Midjourney为你画一幅画时，你或许听过“词元”或“Token”这个词。账单上显示消耗了“5000个词元”，听起来像个虚拟的点数，但它远比这更基础、更有趣。理解它，是理解当今AI如何“思考”和“工作”的第一道门。

让我们从一个简单的句子开始：“I don’t like pineapple on pizza.”

人类看到的是单词和意义，但像GPT-4这样的模型，它的“眼睛”看到的是更细碎的片段。在它眼中，这个句子可能会被拆解成这样：

看到了吗？一个完整的单词“don’t”被拆成了“ don”和“’t”两个部分。这些最小的、不可分割的文本片段，就是词元（Token）。它不是我们理解的“词”，更像是语言积木，是模型处理信息的基本粒子。

对于中文，情况有点特别。一个汉字本身就可能是一个词元，但模型更倾向于将常见的词语组合在一起。比如“人工智能”，可能被当作一个词元，也可能被拆成“人工”和“智能”两个。这取决于模型在训练时从海量数据中学到的“词汇表”。

OpenAI曾给出一个经验法则：对于英文，1个词元约等于0.75个单词；对于中文，1个词元约等于0.5到2个汉字。所以，一段300字的中文，可能需要消耗200到600个词元。这个数字波动很大，因为“中华人民共和国”可能只算1个词元，而“魑魅魍魉”四个生僻字可能被算作4个。

你可能会问，为什么非要这么麻烦地切分？直接用单词不行吗？

这就触及了AI设计的核心：效率与泛化能力。

压缩词汇表，节省算力：如果每个英文单词都作为一个独立单位，词汇表将膨胀到几十万甚至上百万，模型参数会变得极其臃肿。而通过词元化，一个包含5万个词元的词汇表，就能高效覆盖绝大多数文本。比如，“unhappy”、“unlikely”、“unusual”都共享“un”这个词元，模型学一次就能举一反三。
处理未知词：遇到一个从未见过的长单词，比如“supercalifragilisticexpialidocious”，模型可以把它分解成认识的词元（如“super”、“cali”、“fragil”等）来理解其大概结构，而不是直接懵掉。
统一文本与代码：词元化不仅用于自然语言。在AI编程助手眼中，代码也被切分成词元（如“def”、“if”、“(”、“)”等），这样它就能用同一种“语言逻辑”来处理散文和Python脚本。

这才是词元概念最“出圈”的地方。当模型能力被封装成API服务时，词元便从技术术语，摇身一变成了数字经济的“基本粒子”。

你可以把它想象成手机的流量计费。你输入的问题（提示词）和AI给出的答案（生成文本），都会被转换成词元数量。模型提供商根据消耗的总词元数向你收费。这形成了一种极其精细、可量化的商业模式：

所以，下次再看到“Token”这个词，不妨把它想象成智能世界的“字节”。它既是构成AI思维的基本砖块，也是驱动这个新经济体系流动的血液。理解了它，你就摸到了连接技术与商业的那根关键线缆。

归档