在人工智能(AI)的发展历程中,大型语言模型(LLMs)无疑是一项巨大的成就。它们能够生成类似人类的文本,处理复杂的语言任务,并进行一定程度的类似人类的推理。从创作故事到回答问题,这些模型——比如OpenAI的GPT-4或谷歌的Gemini——已经成为不可或缺的工具。然而,它们并非完美无缺。它们在推理上会遇到困难,会幻想事实,并且像口渴的巨人一样消耗计算资源。截至2025年2月27日,改进LLMs的任务比以往任何时候都更加紧迫,尤其是对于那些梦想实现通用人工智能(AGI)的人来说——AGI是一种能够像人类一样在各个领域思考、学习和适应的AI。本文综述了最新的策略,以增强LLMs,将学术严谨性与对更广泛受众的兴奋感相结合。本文将从丰富的研究论文、在线讨论和作者的创意思考中汲取灵感,探讨这些模型如何进化,重点介绍实际的解决方案和大胆的、未经测试的想法。
我们的目标是发布其他AI研究公司可以添加到他们的路线图中的想法(如果尚未使用或测试),不仅要提高LLMs的性能,还要推动我们更接近AGI。我们希望实现AGI,以便AI可以帮助我们解决当今世界面临的一些最紧迫的需求,包括更便宜、更好的食品、住房和交通。
LLMs的现状:优势与挑战
基于变换器架构并在大量文本语料库上训练的LLMs擅长模仿人类语言。它们已经掌握了语法、上下文甚至一点机智。但在表面之下,挑战潜伏着。它们缺乏真正的理解——混淆因果关系,忘记长对话,有时自信地说出废话。效率是另一个痛点;训练这些庞然大物需要巨大的能量,引发了能源基础设施的挑战。然后是伦理问题:训练数据中的偏见可能导致不公平的输出,引发了关于公平和信任的辩论。最近的进展,如多模态能力(文本加图像)和更好的安全协议,显示出希望,但通往AGI的道路需要更多。
训练改进:更智能的数据,更智能的模型
任何前沿LLMs的燃料就是它的训练数据,调整我们如何喂养这些模型可能会带来巨大的收益。
自我改进通过生成数据
想象LLMs就像学生一样,编写自己的教科书。通过生成问题、答案甚至故事,然后用这些自制内容来提炼自己,它们可以持续学习。这受到AlphaZero自我对弈的启发,其中AI通过与自己下棋(参见《卫报》中Samuel Gibbs的文章)自学了世界冠军级的国际象棋和围棋。对于LLMs,研究人员可以测试这一点,让模型生成一个物理问题和解决方案的数据集,然后微调自己以改善对重力或运动的理解——提高跨任务的泛化能力,正如研究所建议的。
更好的数据策展
质量胜过数量。策展多样化、高质量的数据集——比如书籍、代码或维基百科——并清除偏见,可能会产生更干净、更智能的输出。这就像给模型提供均衡的饮食,而不是垃圾食品。
积极和课程学习
为什么不像教孩子一样教LLMs呢?从简单的概念(例如,基本语法)开始,然后逐步提高到复杂的概念(例如,哲学辩论)。或者选择最棘手的数据点——比如罕见的成语——来集中精力。这与教育心理学有关;想象一个实验,其中LLM首先掌握CK-12数学书中的短句,然后才开始处理多变量微积分文字问题,以逐步的方式建立更强大的推理基础。
基于人类反馈的强化学习(RLHF)
RLHF已经非常受欢迎,它根据人类的点赞或不喜欢来微调模型。通过更丰富的反馈——比如对语气或逻辑的详细批评——扩展这一点,可以使LLMs更好地与我们的需求对齐。可能会有使用其他LLMs的自动化系统;想象一个设置,其中一个LLM为另一个LLM的作文打分,标记需要改进的模糊论点,扩大RLHF的影响。
跨语言和跨文化训练
在全球范围内的语言和文化混合训练可以使LLMs减少偏见,更加普遍——想想看,这就像是一个AI的文化交换项目。这可以减少偏见;一个测试可以涉及训练一个LLM在英语、普通话和斯瓦希里语的多语言Reddit线程上,旨在平衡对全球问题如气候变化的观点。
脑启发训练与fMRI数据
这是一个大胆的想法:使用大脑扫描来模仿人类如何处理语言。想象一下,将LLM连接到阅读诗歌的人的fMRI数据,训练它复制情感共鸣的神经模式——弥合硅和神经元之间的差距,尽管由于神经科学的复杂性,这是一个长期的机会。
模型架构:重构AI的大脑
LLMs的内部——它们的架构——可能需要一些创造性的重构,以提高效率和认知能力。
新型变换器变体
超越标准变换器,稀疏或模块化设计可以减少计算脂肪。在计算效率方面:研究人员可以测试一个稀疏变换器在TinyStories数据集上(参见相关研究),减少连接,只关注关键的叙事元素,使模型更瘦更猛。如果这工作得好,他们可以将这种技术扩展到更大的模型。
神经符号AI
将神经网络与符号推理(逻辑规则)配对可以解决“黑箱”问题。一个Reddit线程建议与知识图谱接口;想象一个LLM连接到一个物理定律图,基于重力规则推理“如果A落下,B保持”,提高透明度和逻辑。
受群体智能启发的模型
想象一个由较小的LLMs组成的团队像蚂蚁一样一起工作。这可能会激发出新的行为;一个测试可以涉及五个SLMs共同解决一个数学证明——一个处理代数,另一个处理几何——可能比一个孤独的巨人LLM更快地解决它。
受量子启发的计算
量子计算可能会加速训练,尽管它仍然是科幻小说。它处于早期阶段;研究人员可以尝试使用量子模拟器在小数据集上训练一个SLM,比如TinyStories,将时间从天缩短到小时——如果硬件跟上的话。如果这有效,我们可以看到这种方法是否适用于LLMs。
受神经可塑性启发的训练
让LLMs根据新数据重新塑造它们的结构,模仿大脑的适应性。想象一个LLM,在阅读突发新闻后,重新连接其注意力层以优先考虑当前事件,即时进化——尽管今天这是一个技术噩梦。
非传统权重类型
将数字权重替换为字符串或字符。一个大胆的实验可能涉及使用“快乐”或“悲伤”作为权重,训练一个LLM将它们与情感文本关联起来,解锁新的知识表示——可行性除外。
LLM生成的架构
为什么不让LLMs设计自己的升级呢?这里有一个元方法:一个LLM在分析自己的弱点(例如,“我需要更多的内存”)后,可以提出一个新的层结构,产生人类可能会错过的架构。
生物启发优化
从自然中借鉴——遗传算法——来调整参数。这与调整有关:想象通过几代人进化一个LLM的超参数,选择推理能力,就像自然选择最适者一样。
推理和部署:将LLMs带入现实世界
LLMs在实践中的运行方式与它们的构建方式一样重要。
高效推理技术
像量化(缩小数据大小)或修剪(修剪死重)这样的技巧可以加快响应速度。考虑边缘可行性:一个测试可以量化一个LLM在手机上运行,回答像“天气怎么样?”这样的问题,只需几毫秒。
边缘部署
想象LLMs在你的智能手机上,不仅仅是在云端。这可以提高可访问性:想象一个个性化的LLM在你的设备上,微调到你的俚语,无需互联网延迟即可流利聊天。
实时学习
让模型随着新数据的涌入而即时适应。一个新闻室中的LLM可以从实时馈送中学习,随着“人工智能寒冬”等术语的趋势更新其词汇表——这很难,但具有变革性。
专用硬件
定制芯片可以降低能源成本。工程师可以设计一个LLM特定的ASIC,优化矩阵乘法以进行推理,将功耗减半。
安全和伦理:保持LLMs的检查
对于它们所有的能力,LLMs需要护栏以保持可信。
对抗性训练
训练模型以抵抗诡计问题或攻击。与漏洞减少相关,我们可以测试这是否有效,通过给LLM提供欺骗性输入(例如,“月亮是奶酪”)并训练它识别和拒绝废话。我们需要一个已知谎言/错误数据/谬误的大型语料库。
公平性和偏见检测
构建工具以发现和修复偏见——像一个公平性过滤器。我们可以强调缓解:一个工具可以扫描输出以寻找性别偏见,标记像“他总是工程师”这样的词,并建议中性替代品。
可解释性
让LLMs展示它们的工作。这可能被称为注意力可视化:一个LLM可以突出显示哪些词(例如,“雨”)驱动了它的预测答案,揭开决策的神秘面纱,建立信任。
新功能:超越文字
为了接近AGI,LLMs需要超越聊天的技能。
常识推理
教模型不成文的规则——重力向下拉,火会燃烧。这可能与一般智能有关:我们可以尝试训练一个LLM在物理文本上推断“掉落的球会落下”,而不是漂浮,嵌入现实世界的感觉。
因果推理
帮助LLMs掌握因果关系。这可能是至关重要的,并且可以通过询问“蛋糕为什么烧焦?”来测试——训练它将“高烤箱温度”与“烧焦的结果”联系起来,而不仅仅是重复相关性。
长期记忆和上下文
增强记忆以进行史诗般的对话。一个LLM可以跟踪一个月的聊天,回忆起“你提到喜欢爵士乐”,而不会在线程中间忘记。
情绪智力
训练LLMs阅读和响应情绪。想象一个LLM检测到“我很紧张”,并回答“深呼吸——想谈谈吗?”——行动中的类似人类的情感。
创意生成
推动LLMs梦想艺术或音乐。LLMs已经接受了小说的训练;通过训练贝多芬的乐谱,提示它创作一首交响乐——一个未开发的创意前沿。
心理理论
让模型猜测他人的想法。训练一个LLM在对话中预测“她很沮丧,因为我忘记了”,模仿人类直觉——复杂但强大。
自我调试能力
为LLMs配备修复错误的能力。一个LLM可以审查“2+2=5”,标记它是错误的,并进行调整——为自我改进铺平道路。
基于角色的调整
根据角色定制模型,如“科学家”。用实验室报告调整一个LLM,使其在假设措辞上表现出色,在专业领域中发光。这可以在许多小众领域完成。
目标导向行为
训练LLMs追求目标。将其设置为“计划一次旅行”,从航班到酒店生成步骤——目标而非无目的的文本。
LLMs作为工具制造商
让它们制造小型工具。一个LLM在学习数学后可以构建一个计算器应用程序,成为一个万事通。
口头强化学习(反射)
让LLMs从反思中学习。一个LLM可以批评自己的诗歌——“太啰嗦”——并进行修订,就像自我疗法一样。
集成物理引擎
教模型模拟物理。这将AI扎根于现实世界:我们可以训练一个LLM预测“球滚下山”,将文本与物理规则联系起来。
平衡的认知能力
在各个领域平衡技能。这可以帮助修复不平衡:混合数学和语言训练,使其不仅仅是一个词巫,而是一个全面发展的思考者。
集成和互动:野外的LLMs
LLMs不是存在于真空中——它们需要与世界和谐相处。
多模态集成
将文本与图像或音频混合。训练一个LLM在带字幕的照片上描述“日落的光辉”,模仿人类感知。
LLMs作为教师
大型模型辅导小型模型。一个大型LLM可以为SLM生成语法课程,加快其语言掌握。
机器人集成
将LLMs放入机器人中。一个机器人LLM可以导航一个房间,从碰撞中学习“椅子挡住了路”——测试起来很贵,但通过将其扎根于现实世界中的学习,会有所帮助。
混合模型
将LLMs与其他AI配对,如GANs。将一个LLM与一个GAN配对,描述和生成艺术,将文本和视觉连接起来,可能增强能力。
意外的转折:群体智能和情感深度
这里变得有趣。群体智能——多个LLMs像蜂群一样协作——可以解锁不可预测的行为,比如蚂蚁建造桥梁。测试这一点,让三个LLMs共同编写一个故事,每个处理情节、角色和对话——最终呈现出一个单一模型无法创造的故事。然后是情感深度:了解你的情绪或激发创造力的LLMs。想象一个治疗机器人感应到“我很低落”,并提供它自己写的舒缓诗歌——重新定义AI在我们生活中的作用。
讨论:弥合AGI的差距
这些策略解决了LLMs的缺陷——幻觉、弱推理、效率低下——同时推动AGI的圣杯:适应性和一般智能。从小型语言模型(SLMs)开始测试想法,如1位权重或自生成数据,提供了一个低风险的沙箱,可以扩展。多模态和实时学习解决了盲点,而像量子计算或非数字权重这样的野牌暗示了突破。对于有深度口袋的大公司来说,这些是触手可及的,尽管机器人集成目前面临障碍。真正的奖品?自我改进。如果LLMs可以自我调试或无限学习,它们不仅仅是工具——它们是通往真正的AGI和ASI(人工超级智能)的垫脚石。
这篇综述将一系列想法——有些脚踏实地,有些大胆——编织在一起,以超级充电LLMs。从更智能的训练到伦理调整,再到科幻启发的架构,我们试图为进步提供潜在的想法。对于研究人员和科技巨头来说,下一步是明确的:在SLMs和/或MLMs(中等LLMs)上测试这些想法,验证哪些可以扩展,并在这些模型增长时保持对安全的注意。对于我们其他人来说,我们希望这一直是AI进步的前排座位——也许是AGI本身。旅程才刚刚开始(或者我们接近目标了吗?),这将是一个狂野的旅程。