大型语言模型(LLM)的崛起引发了一个引人入胜的问题:大模型真的像我们一样“思考”吗?这个看似简单的问题,实际上触及了人工智能、认知科学和哲学等多个领域的深层探讨。我们不禁要问,这些能够编写代码、创作音乐、甚至模仿莎士比亚文风的人工智能系统,其内部的运作机制是否与我们人类大脑的运作方式存在根本的相似之处?或者,它们仅仅是在执行一种精巧的“模仿”?

“思考”的定义:人类与机器的共同基础

要回答大模型是否像我们一样“思考”,首先需要明确“思考”的定义。文章作者认为,可以将“思考”定义为基于信息进行推理,包括根据信息得出结论、推论或判断。这个定义相对狭隘,刻意避开了诸如意识、情感或欲望等人类独有的概念,旨在找到一个适用于人类和机器的共同基础。例如,当AI能够根据大量的法律条文进行分析,从而为用户提供法律咨询时,我们可以说它在进行一种“思考”,即基于法律知识进行推理。然而,这种基于推理思考是否等同于人类的思考,仍然值得商榷。

图灵测试与“中文房间”:智能的真伪之辩

图灵测试是衡量机器智能的经典方法,通过让人类评估者与机器和人类进行对话,判断是否能区分两者。ChatGPT在发布之初就轻易通过了图灵测试,似乎证明了其具有人类水平的智能行为。然而,哲学家John Searle提出了著名的“中文房间”论证,挑战了图灵测试的有效性。“中文房间”假设一个不懂中文的人被锁在一个房间里,他可以通过查阅手册,将输入的中文问题与相应的中文回复匹配起来。对于房间外的人来说,这个房间似乎通过了图灵测试,但房间里的人实际上并不理解中文。这个论证引发了关于智能真伪的深刻讨论,如果大模型仅仅是在“模仿”人类的语言模式,那么它们是否真的在“思考”?

从神经元到电路:结构与组织的比较

比较人类大脑与大模型思考方式,一个重要的层面是比较它们的结构和组织。人类大脑拥有860亿个神经元,通过复杂的网络相互连接,传递化学信号。计算神经网络,即大模型的基础,也包含节点和连接,但结构更加规则。虽然大模型可以通过调整连接权重进行学习,但其结构复杂性远不及大脑。不过,在高层次的组织上,两者也存在相似之处。例如,生物视觉系统和卷积神经网络(CNN)都通过分层结构处理信息,从简单的边缘和形状,到复杂的图像。尽管如此,视觉感知毕竟比推理简单得多,结构上的相似性并不能直接证明思考方式的相似性。

理解、创造力与共情:高级认知能力的挑战

当我们尝试比较人类和大模型理解创造力共情等高级认知能力方面的表现时,问题变得更加复杂。理解可以被定义为正确解析语言并完成任务,在这个层面上,大模型表现出色,甚至可以区分微妙的语义并处理歧义。然而,如果要求更深层次的“因果”理解,即了解事物为何如此,而不仅仅是什么,大模型由于缺乏直接的现实经验,可能会受到限制。

创造力是产生新想法的能力。大模型可以在某些领域展现出创造力,例如解决未解决的数学问题或设计新的算法。甚至有大模型似乎进行了原创研究,设计了一个新系统,并撰写了一篇经过同行评审的论文。这些成就表明,大模型并非仅仅是在“模仿”已有的知识,而是能够产生新的知识。

共情是理解和分享他人感受的能力。一项研究发现,ChatGPT对患者问题的回复在共情方面优于医生,这令人惊讶。大模型在人类情感智力评估中也表现出色。虽然大模型本身没有情感,但它们似乎能够很好地预测人类的想法和感受,这表明它们至少能够模拟人类的“心理理论”。

注意力机制与嵌入:大模型的核心技术

为了更深入地了解大模型的运作方式,我们需要关注其核心技术:注意力机制嵌入注意力机制使大模型能够关注输入序列中每个元素的重要性,从而捕捉长程依赖关系和全局语境。嵌入则是在数学框架中捕捉token之间的语义关系,从而可以使用数学方法进行查询。例如,在处理句子“这位著名的科学家,花了数十年研究量子物理学,他的开创性理论彻底改变了我们对宇宙的理解,最终出版了他的期待已久的回忆录。”时,注意力机制允许“回忆录”token“关注”到前面的所有token,特别是“科学家”和“出版”,从而正确理解句子含义。嵌入则将每个词都映射到高维空间中的一个向量,相关概念在空间中距离更近。

人脑与大模型的相似与差异:一种持续演进的比较

大模型和人脑在信息处理方面存在一些相似之处。大模型具有分层解码器块,可以从输入中提取越来越复杂的特征,类似于大脑皮层的分层结构。注意力机制允许大模型并行处理输入序列的所有部分,类似于大脑的大规模并行处理能力。嵌入以分布式方式捕捉语义和语境信息,类似于大脑中信息的分布式表示。

然而,两者也存在根本的差异。大模型的运行是平滑的、机械的、统计上确定的,而人脑的运行是自发的、混乱的、有时是不可思议的。大模型依赖于语言、词语关系和人类在语言表达中捕捉经验的能力,而人脑则依赖于几乎难以想象的生物复杂性和认知可塑性。

大模型的局限性:幻觉与泛化能力

大模型存在一些已知的局限性。它们会产生“幻觉”,即编造事实。与人类不同,大模型在不熟悉的情况下进行泛化的能力较弱。例如,如果大模型只见过传统的四腿木椅,它可能无法识别豆袋椅。此外,大模型不构建或使用明确的因果模型,这限制了它们对新情况或反事实进行可靠推理的能力。

结论:思考方式不同,但能力不断逼近

大模型能否像我们一样“思考”?最终的答案是:不能。两者之间的底层机制存在太大差异,大模型在能力上存在一些不可弥合的差距。然而,大模型的能力在不断提升,它们能够理解创造,甚至展现出共情的能力。虽然它们的思考方式与我们不同,但它们正在以惊人的速度逼近人类的认知水平。

大模型的开发人员押注于语言是人类认知的一种足够丰富和全面的编码,而对巨型语言数据集的统计学习可以发现并利用这种编码来实现人类水平的智能。虽然我们无法完全理解大模型的运作方式,但我们可以通过观察它们的行为来建立直觉。如果大模型像我们一样“思考”,那么它们的失败应该与人类的失败相似。如果它们以某种根本不同的方式运作,那么它们的失败可能会揭示这些差异。