人工智能的每一次革命都建立在基础架构的突破之上。从卷积神经网络 (CNN) 引领的深度学习浪潮,到 Transformer 架构点燃的生成式 AI 时代,技术的进步离不开底层架构的创新。在迈向主动式、Agentic AI 的新纪元之际,我们不禁要问:驱动未来的引擎是什么?ICML 2025 大会的研究预览为我们揭示了答案:在 Transformer 仍然占据主导地位的同时,学界和业界正在进行一场大规模、多方位的努力,以增强、优化并最终超越 Transformer 的局限性。
Diffusion Models:从炫技到科学
Diffusion Models(扩散模型) 以其生成逼真图像的惊人能力迅速走红,最初给人的感觉更像是魔术而非科学。然而,ICML 2025 展示了这一领域正在迅速成熟,从最初的惊艳效果转向建立严谨的科学基础。
一篇具有里程碑意义的论文《卷积扩散模型中创造力的分析理论》标志着这一转变。它超越了定性描述,为这些模型如何产生新颖和富有创造力的组合提供了一个预测性的数学理论。作者指出,卷积网络的固有架构偏差阻止了模型完全记忆训练数据。这迫使它创建一个 “局部一致的补丁马赛克”,以新的方式组合学习到的特征——这是对创造力的一种量化解释。可以想象,未来的图像生成工具不仅能按照指令生成图像,还能根据用户提出的风格、情感等抽象概念,自主创造出具有独特艺术风格的作品。
同时,扩散模型的实用性正在扩展到像素之外。口头报告《DeFoG:用于图生成的离散流匹配》引入了一个新颖的框架,将扩散原理应用于生成复杂的结构化数据,如 Graphs(图)。这是一个巨大的飞跃,为在药物发现、社交网络分析和物流等领域使用这些强大的生成工具开辟了新的可能性。例如,在药物发现中,研究人员可以使用 DeFoG 生成潜在的新药分子结构,然后通过模拟和实验进行筛选,从而加速药物研发过程。
这种进步得到了社区范围内的努力的支持,例如《利用扩散模型中的低维度》等教程,旨在使这些模型更高效、可控且数学上更连贯。这些教程的出现,降低了扩散模型的使用门槛,让更多的研究人员和工程师能够利用其强大的生成能力。
后 Transformer 时代:效率与理论的角逐
Transformer 架构的巨大成功也带来了自身的问题:大规模 Transformer 在计算和内存方面都非常昂贵。这种经济和工程压力引发了一场旨在使大规模 AI 更快、更高效的创新浪潮。ICML 2025 展示了一系列解决方案:
- Smarter Sparsity(更智能的稀疏性): Mixture-of-Experts (MoE) 是一种通过仅激活网络的一小部分进行计算来扩展模型的常用技术。然而,它存在显著的通信瓶颈。口头报告《查找专家混合 (MoLE)》提出了一种巧妙的解决方案:专家被训练成标准网络,但可以在推理过程中重新参数化为简单的、高效的查找表。这大大减少了内存使用和通信开销,使大型 MoE 模型更易于部署。想象一下,未来的 AI 模型可以根据不同的任务,动态地选择合适的专家模块进行处理,从而大大提高计算效率,并降低能源消耗。
- Faster Attention(更快的注意力): Attention Mechanism(注意力机制) 是 Transformer 的核心,但也是计算成本最高的部分。《AdaSplash:自适应稀疏闪存注意力》将 FlashAttention 的硬件感知优化与强制稀疏性的原理性方法相结合,创建了一种既快又省内存的注意力机制。这就像给 AI 模型配备了一双更敏锐、更高效的眼睛,能够更快地聚焦于关键信息。
- Accelerated Inference(加速推理): Speculative Decoding(推测解码) 已经成为加速模型输出的关键技术。它使用一个小的、快速的 “起草者” 模型来生成文本块,然后由大型、强大的目标模型快速并行地验证。论文《使用异构词汇表的无损推测解码加速 LLM 推理》通过消除起草者和目标模型必须共享相同词汇表的约束,为该技术做出了关键的实际贡献,大大拓宽了该技术的适用性。 例如,在机器翻译中,起草者模型可以快速生成一段译文草稿,然后由更精确的目标模型进行校对,从而显著提高翻译速度。
这些架构活动完美地说明了科学和工程中的经典成熟周期。首先是革命性的突破——Transformer。然后是密集的经验开发时期——扩展时代——主要关注的是使模型更大。这种开发造成了成本、速度和内存方面的实际瓶颈。作为回应,人们发明了巧妙的、经验驱动的技巧来应对,其中 Low-Rank Adaptation (LoRA) 就是一个典型的例子。
LoRA 在实践中对于有效微调大型模型非常有效,但缺乏对其工作原理的深入理解。ICML 2025 的研究标志着下一个阶段:理论巩固。口头论文《LoRA 训练可证明收敛到低秩全局最小值,否则会严重失败》提供了第一个对 LoRA 成功进行严格的数学分析,表明其训练过程隐含地偏向于找到所需的低秩解。这使 LoRA 从一个 “巧妙的技巧” 提升为一种有原则的工程技术。
这个周期——突破、开发、巩固——对于构建强大、可靠的系统至关重要,并为下一个伟大的架构飞跃奠定了必要的基础。例如,在自然语言处理领域,LoRA 可以用于在预训练的大型语言模型的基础上,针对特定任务进行高效的微调,例如情感分析、文本摘要等。
超越文本和像素:迈向真正的多模态
构建能够感知、推理和行动于人类居住的复杂、多模态世界的 AI,是许多研究的最终目标。ICML 2025 展示了在将基础模型超越其单模态起源方面取得的重大进展。
研究正在推动超越简单的任务,如图像描述,朝着真正的集成理解发展。 《EMMA:增强型多模态推理基准》专门用于测试这一点,其特色是视觉和文本信息密不可分的问题,需要真正的跨模态推理。 想象一下,未来的 AI 系统不仅能够识别图像中的物体,还能理解图像与文本之间的复杂关系,例如识别讽刺意味、理解上下文含义等。
在 Video Generation(视频生成) 方面,重点正在从简单地创建看似合理的移动图像转向建模真实的动力学。《VideoJAM:用于增强视频模型中运动生成的联合外观-运动表示》通过显式地在运动场上训练模型来解决这个问题,从而灌输强大的 “运动先验”,从而产生更连贯和真实的运动。
最后,《EmbodiedBench》提供了一个全面的新基准,用于严格评估必须在模拟 3D 环境中运行的 Agent,测试从空间意识到长期规划的广泛能力。这意味着未来的机器人不仅能够执行简单的任务,例如行走、抓取物体,还能在复杂的环境中进行导航、协作,并根据长期目标制定行动计划。
ICML 2025 的启示与展望
ICML 2025 大会展现了 AI 领域在基础架构和理论理解方面的显著进步,特别是在 Diffusion Models、Transformer 优化以及多模态学习等关键领域。这些进步不仅推动了现有技术的性能提升,也为未来的 Agentic AI 发展奠定了坚实的基础。
回顾文章,我们可以清晰地看到,人工智能的进步并非一蹴而就,而是经历了一个螺旋上升的过程:从技术突破到实际应用,再到理论巩固,每一个阶段都至关重要。
展望未来,我们可以期待 ICML 2025 所展示的这些技术和理念,将在未来的 AI 系统中得到更广泛的应用,推动 AI 从感知智能向认知智能、行动智能的转变,最终实现真正的人工通用智能 (AGI)。例如,结合了 Diffusion Models 和图神经网络的 AI 系统,可以用于设计具有特定功能的全新材料;利用更高效的 Transformer 架构,可以构建更加智能、更加个性化的 AI 助手;而具备多模态理解能力的 AI 系统,则可以帮助我们更好地理解世界,解决复杂的问题。