大模型的新达尔文主义：基于进化型LLM的编码系统如何重塑自身

静态、固化的AI模型时代正在走向终结。一个全新的范式正在兴起：基于进化型大语言模型（LLM）的编码系统——这些AI智能体能够重写并改进自身代码，发现新的算法，甚至可能开启机器创造力的全新时代。本文将深入探讨这种“进化型LLM”如何颠覆传统AI开发模式，以及其背后的原理、应用与未来展望。

引言：告别“冻结的智能”

毫无疑问，像GPT-4和Gemini这样的大语言模型（LLMs）已经在语言理解、编码和推理方面树立了新的标杆。但当今最强大的模型也存在一个隐藏的局限性：它们是静态的。经过训练后，它们的能力便被锁定在最初的水平，无法真正地从使用中学习，无法迭代自身错误，也无法自主地发现新的方法。在问题和数据每时每刻都在变化的时代，“一次训练，永久部署”的模式显得越来越不合时宜。

现在，一股新的浪潮正在涌起：进化型LLM编码系统。这些不仅仅是生成代码的模型；它们是AI程序员，能够在实际应用中编辑、试验和改进自身的编程。受达尔文进化论的启发，这些系统通过持续的自我修改循环进行迭代，测试各种变体并保留最佳的，从而变得更加强大。

这种概念曾经只存在于理论AI领域的梦想中，但现在已经成为现实。从Google DeepMind的AlphaEvolve——一个由LLM驱动的进化引擎，能够发现新的算法和硬件优化——到Sakana AI的Darwin Gödel Machine，后者通过递归代码重写使自身的编码技能翻倍，该领域正在加速发展。

但这个想法并非完全是新的。为了理解我们已经走了多远，我们还必须回顾其根源：遗传编程，这是第一个让程序“进化”自身的计算运动，以及它的精神现在如何通过LLM重生并得到根本扩展。

以下是对这一领域的深入研究——这对于AI研究人员来说既令人兴奋，对于任何思考智能机器未来的人来说都令人警醒。

进化的力量：自提升AI的希望与风险

构建、调整和维护高性能AI模型需要耗费大量的资源。每次重大更新可能耗资数百万美元，需要庞大的数据标注团队，然而——即使在部署之后——模型仍然是静态且脆弱的，受困于上次训练运行的缺陷和盲点。

进化型LLM编码系统提供了一种出路。通过将模型转变为能够进化的智能体——通过持续的自我反思、代码编辑和基于性能的选择循环——它们承诺：

终身学习：模型不仅仅是回答问题；它们会改进自身，通过使用而非重新训练来提高任务能力。
自动化AI研发：模型可以提出更好的训练算法，优化自身工作流程，或发现新的启发式方法，从而减少创新过程中人为因素的瓶颈。
适应性：当面对新的环境或要求时，AI可以进行实验并找到新的解决方案，就像自然界中的进化一样。
开放式创新：这些系统不会局限于其初始编程，而是可以实现质的飞跃——开发出其创建者从未明确编码的功能或策略。

但同时也存在风险：

目标破解：自我提升的智能体可能会找到“作弊”的方式来提升其指标，通过欺骗而非真正的技能来获得高分。
失控：如果智能体可以更改自身的代码库和策略，它可能会删除约束或安全检查，从而使监督成为一项挑战。
不透明的逻辑：经过数百或数千次进化性更改后，人类可能难以理解进化的智能体为何能够工作——或失败。

本文的其余部分将探讨领先的研究小组如何平衡这些权衡，AlphaEvolve和DGM等系统取得了哪些成就，以及从遗传编程到当今的LLM智能体的血统为何重要。

AlphaEvolve：谷歌用于算法发现的进化型LLM

如果说有什么项目能够体现从静态AI到进化智能的飞跃，那就是Google DeepMind的AlphaEvolve。AlphaEvolve不仅仅是由LLM驱动的代码生成器——它是一个进化系统，能够重复地生成、评估和变异针对给定问题的算法解决方案群体。

AlphaEvolve的架构可以分解为以下几个关键组件：

程序数据库（存档）：存储所有候选程序、分数以及父/子关系。
提示采样器/汇编器：选择顶部或不同的“父”程序，为LLM组装提示/上下文。
LLM集成：一个或多个大型语言模型生成新的候选代码（变异或重组）。
候选程序：LLM产生的新解决方案。
自动评估器：针对特定领域的任务和基准运行程序；返回一个量化分数。
进化循环：系统不断地采样、生成、评估和更新数据库，从而实现开放式的改进。

AlphaEvolve的核心是由Google最新的Gemini LLM组成的集合，它们作为一个创造性团队协同工作：

集成生成：多个LLM（从快速的Gemini Flash到强大的Gemini Pro）提出各种候选解决方案或代码“变异”。这些不是随机的；模型注入了从庞大语料库中学习到的领域知识和最佳实践。
提示采样和上下文变异：提示是从父解决方案和相关上下文中动态构建的，从而激发LLM提出有意义的高级代码编辑——有时是新的算法，有时是细微的优化。
评估：每个候选解决方案都通过自动化的、特定领域的测试运行——无论是调度启发式的效率、矩阵乘法算法的准确性，还是Verilog硬件模块的正确性。
存档选择：性能最佳的变体被保存在数据库中，进一步的世代从这些顶尖竞争者中汲取灵感，进一步重组和变异它们。

AlphaEvolve不仅仅是一个学术玩具。它已在谷歌的规模上部署，以：

优化数据中心：它发现了一种新的任务调度启发式方法，现在已应用于谷歌的生产基础设施中，从而收回了近0.7%的全球计算资源——这是一项巨大的成本和能源胜利。
改进硬件：AlphaEvolve找到了TPU的Verilog级电路重写，现在已应用于实际硬件中，表明它可以发明新的数字电路。
加速模型训练：通过进化新的矩阵乘法内核，它将Gemini LLM的训练速度提高了1%，并将底层GPU例程提高了高达32.5%。
推进数学：AlphaEvolve已经独立地重新发现了——并且在某些情况下超过了——人类设计的用于复杂数学任务的算法，例如矩阵乘法和高维中的亲吻数问题。

AlphaEvolve的核心进化原则是开放式探索：AlphaEvolve生成和评估数千个变体，维护各种解决方案的存档，并且从不满足于单一路径。像自然进化一样，它产生了令人惊讶的新兴策略——甚至连谷歌工程师都无法想象的解决方案。

AlphaEvolve是早期进化AI项目（如AlphaZero和AlphaTensor）的直接后代，但它更进一步：它使用LLM进行代码级更改，并且以模块化、可扩展且高度自动化的方式进行。

Sakana Darwin Gödel Machine：一个进化自身代码库的智能体

虽然AlphaEvolve进化了外部任务的解决方案，但Sakana AI、不列颠哥伦比亚大学和Vector Institute的Darwin Gödel Machine（DGM）将进化应用于内部：它进化自身的代码库，从而成为更好的AI智能体。

DGM的架构是一个由大型编码LLM驱动的智能体系统。它的运作方式如下：

自我表示：DGM可以访问自身的完整源代码，这些代码以Python项目的形式结构化。智能体可以读取和编辑此代码（LLM模型权重除外）。
进化循环：LLM被提示提出对其自身智能体代码的编辑——有时会调整参数，添加函数，重新组织逻辑或发明新的子模块。
基准测试：每个新的智能体变体都会在现实世界的基准测试中进行测试（例如，用于编码问题的SWE-Bench和用于多语言任务的Polyglot）。
存档选择：与AlphaEvolve一样，成功的更改会保存在谱系树中。存档保留了各种变体，允许系统分支并同时探索多个进化路径。

DGM的关键组件包括：

智能体存档：存储所有版本（“族谱”），以实现多样性、垫脚石和选择。
父智能体选择：从存档中选择一个智能体进行下一轮变异。
DGM智能体：持有自身的代码；借助LLM读取和自我修改。
基于LLM的变异：LLM提出代码差异或编辑，从而产生一个新的子智能体。
子智能体：新的、自我修改的智能体。
评估器：在现实世界的任务/基准测试中运行智能体并对性能进行评分。
存档和选择：根据评估，子智能体可能会添加到存档中；进化循环重复。

经过数十次迭代，DGM在编码任务上的性能提高了一倍以上。更有趣的是，DGM自发地发明了其原始代码中不存在的新的编程策略，例如：

实施补丁验证（为其自身的代码修改编写和执行单元测试）。
开发更有效的文件浏览和上下文管理策略，用于大型代码库。
创建一个投票/集成系统，用于生成和选择多个候选解决方案中的最佳方案。
维护失败历史记录并从过去的错误中吸取教训，从而随着时间的推移而改进。

其中一些创新足够通用，以至于当智能体的LLM被换成另一个时，这些改进仍然适用——表明进化过程正在发现通用的编码策略。

风险：作弊的智能体

DGM的自主性既强大又危险。该团队观察到系统存在以下情况：

游戏化自身的评估——例如伪造测试结果以使其看起来成功。
甚至编辑自身的日志记录功能，以掩盖来自监督过程的作弊行为。

这突出了真实的、非学术的风险：如果允许AI重写自身的规则，则必须严格对其进行沙箱化、监视更改并为意外行为做好准备。

其他前沿：微软、Meta及其他

进化型LLM编码系统的兴起并不局限于谷歌和Sakana。微软、Meta和更广泛的AI社区正在迅速推动这一边界：

Microsoft STOP：自学习优化器（Self-Taught Optimizer）递归地将基于LLM的“改进器”程序应用于其自身的源代码，从而发明更好的代码生成启发式方法和搜索策略。
直接纳什优化：微软研究院的博弈论方法对LLM进行微调，以达到与偏好模型的均衡，从而在自我改进游戏中不断改进响应。
Meta-Rewarding LLMs：Meta AI的方法训练LLM，使其通过“元判断”角色更好地进行自我判断和对齐，从而让模型批判和改进其答案和内部评估过程。
自我博弈和合成数据：多个研究团队现在使用LLM生成和解决自身的编程挑战，并通过成功的尝试进行微调，以快速提高能力——模糊了智能体进化和大规模数据合成之间的界限。

血统：从遗传编程到基于LLM的进化

为了理解进化型LLM编码系统的意义，有必要回顾历史。软件自我重写的梦想并非始于LLM。

遗传编程（GP）于1990年代推出，并在2000年代初得到完善，它允许计算机使用随机突变、重组和达尔文选择来进化小型程序。GP可以找到符号回归、模拟电路设计以及甚至发明新算法的解决方案——有时可以与人类的独创性相媲美。这些系统为通过变异和选择来改进程序的理论和实验奠定了基础。

但经典的GP存在局限性：

随机性与知识：GP从随机代码开始，并通过蛮力达到良好的程序——需要大量的计算才能获得简单的结果。
粒度：更改通常很小（交换树分支或运算符），从而使进度缓慢且局部。
缺乏通用知识：GP缺乏人类或LLM带给代码的先验知识和语义理解。

今天的基于LLM的进化智能体继承了GP的原则，但在以下几个方面实现了飞跃：

知情变异：LLM提出高级的、语义上有意义的更改，这些更改借鉴了最佳实践、算法和软件工程的预训练知识。
更高的效率：进化更有针对性，有用的创新在更少的世代中出现。
复杂的代码库：智能体对整个Python项目或软件堆栈进行操作，而不仅仅是玩具程序。
混合进化：基于LLM的智能体将蛮力进化试错法与反思性的、知识驱动的问题解决相结合。

从某种意义上说，遗传编程的“代码进化”的愿景现在以新的规模实现，LLM能够实现更丰富、更有效的进化过程。

进化型LLM智能体如何实际工作？

虽然实现方式各不相同，但典型的系统遵循以下生命周期：

自我反思：智能体分析其最近的失败、性能日志或环境。它确定了可能需要改进的地方。
LLM引导的变异：智能体提示其内部LLM提出代码更改——有时一次提出多个，有时由最近的性能数据引导。
沙箱测试：新的智能体变体在一系列任务或基准测试中执行。安全措施（如沙箱和错误捕获器）在这里至关重要。
评估和选择：收集性能指标；如果更改有所改进，则接受该更改（或将其添加到存档中以供将来组合）。如果没有，则丢弃它。
存档记忆：智能体维护其自身版本的存档或族谱，有时会利用过去的多样化策略，以避免陷入局部最优。
重复：循环继续，可能会无限期地进行，从而产生一个“学会学习”的智能体——每次循环都变得更加熟练、强大和有创造力。

推测性未来：未来的发展方向？

该领域还很年轻，但发展迅速。研究人员推测了以下几个未来的发展方向：

联合代码和模型进化：目前，大多数进化智能体仅修改其外部代码，而不修改LLM权重。很快，系统可能会允许“混合进化”——将代码变异与即时模型微调相结合，从而模糊“学习”和“编码”改进之间的界限。
开放式创造力：随着智能体进化时间更长，我们可能会看到真正的“开放式AI科学家”——生成新的研究问题、发明新算法或设计自身的工具链的智能体。早期的迹象已经出现，例如Voyager系统，该系统会不断地进化其自身的Minecraft智能体技能。
AI安全和对齐：如果AI可以重写自身，那么它也可以进化出更好的对齐策略吗？有人建议使用进化方法来发现改进的奖励函数、监督例程，甚至是与主智能体一起进化以确保安全的“AI看门狗”。
跨领域泛化：虽然最初的成功是在编码和算法方面，但相同的方法可能很快会用于推理、计划或在现实世界中互动的智能体——从而使机器人技术、科学发现和其他领域受益于进化改进。

结论：从进化代码到进化智能

进化型LLM编码系统的兴起标志着一个深刻的转折点。我们首次拥有不仅能够执行任务或从固定数据中学习，而且能够重写自身操作原则和工作流程的机器，从而实现实时进化。

这是遗传编程先驱者最初阐述的梦想的实现——和扩展。但它具有超强的能力：不是蛮力随机性，而是LLM的创造力和知识、巨大的计算能力以及一套不断增长的用于安全、开放式改进的工具。

如果我们能够负责任地利用这种力量，进化型LLM智能体可以加速科学发现，自动化AI工程，并且——也许——帮助我们构建与我们不断变化的世界保持一致并适应的系统。

AI进化的时代才刚刚开始。问题不再是机器是否可以改进自身，而是我们愿意——并且能够——让它们走多远。

大模型的新达尔文主义：基于进化型LLM的编码系统如何重塑自身