大模型时代的“妙语连珠”：机器能否玩转“代码名称”？

“代码名称”（Codenames）这款聚会游戏，凭借其简单规则和充满策略性的玩法，深受大众喜爱。游戏中，一位线索提供者需要通过一个词的提示，引导队友猜中棋盘上对应的词语。那么， 大模型时代，机器能否像人类一样，给出巧妙的提示呢？这篇文章将带您深入了解自然语言处理（NLP）在“代码名称”游戏中的应用，以及我们能从中学习到什么关于语言、上下文和 NLP 的发展历程。

一、代码名称游戏中的NLP难题：精准的语义表达

“代码名称”游戏的本质，可以归结为一个在严格约束下的词语联想问题：一次提示，多个目标，零失误。理想的提示词需要满足以下条件：

与己方目标词语高度相关。
避免与敌方词语产生任何相似性。

抛开彩色卡片和时间限制，这实际上是一个经典的分布语义难题：如何将多个词语的共有含义压缩到一个向量中，并将其映射回一个提示词？机器如何理解这种微妙的关联，并像人类一样给出精准的提示呢？这就要求机器能够精准理解词语的语义。

举个例子，假设己方目标词语为“国王”和“王后”，理想的提示词可能是“统治”或“婚姻”。但是，如果提示词过于宽泛，例如“人”，则可能导致队友误猜其他与“人”相关的词语。这就体现了语义精准的重要性，也是机器在理解和运用语言时面临的挑战。

二、上下文的重要性：超越词向量的深度理解

当我们想到“国王”这个词时，脑海中可能会浮现出王冠、城堡、权力等意象。但仅仅孤立地考虑“国王”这个词，其意义是有限的。它的意义来源于上下文。早在GPU出现之前，语言学家Firth就提出了“You shall know a word by the company it keeps.”（词语的意义在于它所处的语境）这一观点。

人类通过观察现实世界来学习这些关联：孩子看到王冠，听到“国王”这个词，并将两者联系起来。而机器呢？它们只能看到文本，没有真实的“地面实况”。它们的整个世界，就是一个词语在数十亿句子中的统计组合。

2013年，Google Brain团队发布了word2vec，展示了如果在语料库上滑动一个微小的窗口（约5个词），并预测相邻的词语，该模型可以将词语组织成一个丰富的向量空间：

国王 ↔ 王后相似度 ≈ 0.75
胡萝卜 ↔ 蔬菜相似度 ≈ 0.62
桌子 ↔ 食道相似度 ≈ 0.12

该算法“理解”了性别类比和分类，即使从未见过真实的胡萝卜。

但仅仅依靠词向量还不够，我们还需要更加复杂的模型来理解更深层次的上下文。

三、从词向量到Transformer：大模型带来的质变

作者最初的尝试是，获取每个目标词的向量，计算它们的平均值，然后找到最近邻作为提示词。结果如下：

“咖喱” + “土豆” → 洋葱 (尚可)。
“国王” + “王后” → 女孩 (嗯… 接近，但不太对)。

问题在于，word2vec的五词窗口无法编码更深层次的关系，例如婚姻或君主制。它擅长“国王 ↔ 王权”，但不擅长“国王 & 王后 ↔ 婚姻”。

而今，大模型（LLM）使用数十万，甚至一百万个token的上下文。这相当于10本小说！借助Transformer的注意力机制，它们可以将意义缝合在页面、章节甚至整个故事中。

记忆的重要性： 微妙的主题（婚姻、背叛、血统）只有当模型在大型上下文中看到这些主题时才会浮出水面。

消除歧义： 像python（蛇 vs. 编程语言）这样的词，当较早的段落讨论毒牙或装饰器时，自然会得到解决。

泛化： 更大的上下文让模型能够创造出更新鲜、更安全的提示——这正是“代码名称”游戏所需要的。

大模型的出现，使得机器能够更好地理解上下文，从而给出更加精准和巧妙的提示。

四、基于Transformer模型的“代码名称”AI：未来的方向

作者并没有构建出一个可以碾压朋友的AI。但这次尝试揭示了一些真相：

上下文长度 = 更深入的理解。五个词 ≠ 五十页。
意义是涌现的。向Transformer投入足够的叙述，它就会开始推理你从未明确标记的概念。
游戏是很好的沙盒。一个有趣的约束（一个词的提示）迫使你面对当前模型的边缘，以及它们的工作原理。

未来可能的研究方向包括：

混合嵌入： 将快速静态向量与来自LLM的较慢、高上下文嵌入结合起来。
安全过滤器： 防止模型暗示对手的词语，这是一个可能的强化学习问题。
基于Transformer的定制模型： 训练一个执行此任务的自定义transformer。它可能比通用LLM更有效，并且可能在“代码名称”游戏中具有更出色的表现。

例如，我们可以尝试使用BERT或GPT等预训练的Transformer模型，并对其进行微调，使其能够根据目标词语生成最佳提示词。此外，我们还可以利用强化学习技术，训练模型在“代码名称”游戏中与人类玩家进行互动，并根据玩家的反馈不断优化其提示策略。

五、从游戏中学习：大模型与语义理解的未来

总的来说，这个项目并没有达到作者想要的结果。他没有击败“代码名称”游戏。但他学到了一些更重要的东西：语言的细微差别，以及理解我们每天如何说话、写作和阅读所需的深度。这加深了他对计算语言学的迷恋，并促使他更深入地了解语义意义的谜团。

“代码名称”游戏不仅仅是一个游戏，它也是一个理解机器如何学习和使用语言的绝佳平台。通过研究机器在“代码名称”游戏中的表现，我们可以更好地了解大模型的优势和局限性，并为未来的自然语言处理研究提供新的思路和方向。

结论：

尽管当前的AI技术还无法完全超越人类在“代码名称”游戏中的表现，但大模型的进步已经为机器理解和运用语言带来了质的飞跃。通过不断探索和创新，我们有望在未来开发出更加智能和灵活的AI系统，它们不仅能够在游戏中与人类进行互动，还能够在更广泛的领域中帮助我们更好地理解和利用语言。而对上下文和语义的深刻理解，将是实现这一目标的关键。

大模型时代的“妙语连珠”：机器能否玩转“代码名称”？