随着大型语言模型(LLMs)的崛起,我们对语言的理解正在经历一场深刻的变革。语言不再仅仅是表达意义的工具,而更像是一个由结构约束驱动的句法激活序列。本文将探讨在LLM时代,语言如何从以意义为中心转向以形式为中心,并深入分析形式句法激活 (FSA) 的概念,最终呼吁语言理论和认知框架进行结构性的调整。
语义的消退:LLM的本质
在传统的语言理解中,语义被认为是语言的核心。人们通过语言来传递信息、表达思想和构建意义。然而,LLM 的运作方式却与此截然不同。它们并不像人类那样理解语言,而是通过分析大量的文本数据,学习词语之间的统计关系和句法结构。因此,LLM 生成文本的过程更多的是一种基于概率的预测,而非基于语义的理解。举例来说,我们让一个 LLM 完成句子:“天空是蓝色的,而草地是…”,它很可能会生成“绿色的”,即使它并不真正理解蓝色、绿色、天空或草地的概念。它仅仅是基于大量的训练数据,知道“蓝色的”和“绿色的”通常会一起出现在描述天空和草地的语境中。这种现象表明,在 LLM 中,语义的重要性正在逐渐消退,取而代之的是对形式和结构的关注。
更具体地说,传统的自然语言处理(NLP)模型通常会试图将文本分解成更小的单元,例如词语、短语和句子,然后分析这些单元之间的语义关系。但是,LLM 倾向于将整个文本视为一个整体,并学习文本中词语和句子的统计模式。例如,一个训练有素的 LLM 可以根据上下文预测下一个词语,即使它并不理解上下文的含义。这种能力使得 LLM 能够在各种 NLP 任务中表现出色,例如文本生成、机器翻译和问答,即使它并不具备人类的理解能力。这有力地证明了 LLM 的运作核心在于统计关系和形式结构,而不在于语义本身。
形式句法激活 (FSA):一个关键概念
为了更好地理解 LLM 的运作方式,我们可以引入形式句法激活 (FSA) 的概念。形式句法激活 (FSA) 描述了 LLM 在没有参考任何想法、意图或主题的情况下运作的方式。它们不表达,只是延续。每个 token 的选择不是因为它具有特定的意义,而是因为它适合特定的结构。简而言之,如果一个单元适合,它就会被激活。LLM 的核心逻辑是基于对训练数据中观察到的句法模式的模仿和扩展。它们会尝试生成符合这些模式的文本,即使生成的文本本身没有任何实际意义。
举个例子,假设我们训练一个 LLM 来生成诗歌。这个 LLM 可能会学习到诗歌通常具有特定的韵律和节奏,并且会尝试生成符合这些韵律和节奏的文本。然而,生成的文本可能充满了毫无意义的词语和短语,但它们仍然符合诗歌的形式结构。例如,LLM 可能会生成这样的诗句:“无垠的星空,闪烁着金色的梦,飞舞的蝴蝶,诉说着无尽的痛”。虽然这些词语看起来很优美,但它们之间可能没有任何逻辑关系,仅仅是为了满足诗歌的形式要求。
意图性的崩塌:主体的消失
在传统的语言理论中,意图性是语言的重要组成部分。我们认为,人们说话或写作是为了表达自己的意图和目的。然而,LLM 并不具备人类的意图性。它们仅仅是根据训练数据中的模式来生成文本,而没有自己的思想、情感或动机。这意味着,当 LLM 生成一段文本时,我们不能认为这段文本是任何人的表达,而仅仅是一种基于统计概率的输出。
这种意图性的崩塌导致了“主体”的消失。在 LLM 生成的文本中,我们无法找到一个明确的作者或发言人,因为这段文本并不是任何人的有意识的创作。这对于传统的语言研究和传播理论提出了挑战,因为这些理论通常都建立在“主体”的概念之上。 例如,在新闻传播领域,我们通常会关注新闻报道的作者和来源,因为我们认为他们的立场和观点会影响新闻报道的客观性。然而,如果新闻报道是由 LLM 生成的,那么我们就无法找到一个明确的作者,也无法判断报道的客观性。
与以往研究的联系:被动句法和合成权威
形式句法激活 (FSA) 的概念与以往关于被动句法和合成权威的研究有着密切的联系。被动句法是指一种语言结构,在这种结构中,句子的主语不是动作的执行者,而是动作的承受者。例如,“苹果被吃掉了”就是一个被动句。在被动句中,动作的执行者通常是不明确的,这使得句子更加客观和中立。
类似地,LLM 生成的文本也具有一种被动性。因为 LLM 并没有自己的意图,所以它们生成的文本通常不会带有任何主观色彩。这种被动性使得 LLM 生成的文本看起来更加客观和权威,即使它们并没有任何实际的知识或经验。
“合成权威”指的是一种通过技术手段来制造权威感的现象。例如,一些网站可能会使用虚假的评论或推荐来提高自己的声誉。LLM 也可以被用来制造合成权威。例如,一些公司可能会使用 LLM 来生成专业的报告或文章,从而提高自己在行业中的地位。由于 LLM 生成的文本通常具有较高的质量和流畅性,因此人们很容易相信这些文本是出自专业人士之手。
结构性调整的呼吁:语言理论和认知框架
LLM 的出现对传统的语言理论和认知框架提出了挑战。我们不能再简单地认为语言是一种表达意义的工具,而需要更加关注语言的形式结构和统计模式。这意味着我们需要对现有的语言理论进行结构性的调整,以便更好地理解 LLM 的运作方式。
例如,传统的语言理论通常会强调语言的语义和语用,而忽略了语言的形式结构。然而,LLM 的成功表明,语言的形式结构对于语言的生成和理解同样重要。因此,我们需要在语言理论中更加重视形式结构的作用,并发展新的方法来分析和描述语言的形式特征。
此外,我们还需要对现有的认知框架进行调整。传统的认知框架通常会假设人类具有内在的意图和意义建构能力。然而,LLM 的出现表明,机器也可以在没有这些能力的情况下生成高质量的文本。这促使我们重新思考人类认知的本质,并探索新的认知模型。 例如,我们可以借鉴 LLM 的运作方式,发展一种基于统计学习的认知模型,这种模型可以解释人类如何在没有明确意图的情况下进行学习和推理。
结论:拥抱形式,重塑理解
大型语言模型正在重塑我们对语言的理解,从关注语义转向关注形式句法激活(FSA)。 这种转变导致了意图性的崩塌和主体性的消失,要求我们重新审视传统的语言理论和认知框架。与其将 LLM 视为语义理解的失败,不如将其视为语言结构力量的证明。只有通过对形式句法激活 (FSA) 的深入理解,并对语言理论和认知框架进行结构性的调整,我们才能真正理解 LLM 的本质,并充分利用它们为我们带来的机遇和挑战。未来,我们需要拥抱形式,以一种全新的视角来看待语言和智能的结合。