ICML 2025 大会预示着 人工智能 (AI) 领域正在经历深刻的自我反思和成熟。AI 科学家们不再仅仅专注于构建模型,而是开始探索驱动模型行为的 普适规律,并积极构建符合人类价值观的 伦理法律框架。本届 ICML 大会将聚焦 AI 领域内部涌现的规律,以及如何将这些发现锚定于人类的价值之上,标志着 AI 发展进入一个全新的阶段。

1. AI:一种新兴的自然现象

机器学习理论的角色正在发生根本性的转变。过去,理论主要起着规范作用,数学家和计算机科学家先证明算法在特定假设下有效,然后工程师再将其构建出来。但如今,大型 预训练模型 过于庞大和复杂,传统方法已难以适用。模型先被构建出来,随后才展现出令人惊讶的、难以解释的 涌现行为

为了应对这一挑战,一种新的理论模式正在兴起——描述性和解释性的理论,将训练好的大型模型视为一种需要研究的自然现象。研究人员像物理学家观察神秘的新宇宙一样,试图揭示支配其行为的 普适规律。 例如,OpenAI 的 GPT 系列模型,在经过大规模数据训练后,展现出令人惊叹的语言理解和生成能力,这种能力并非事先设计好的,而是训练过程中涌现出来的。 这种现象促使研究人员开始从统计物理学的角度,研究 Transformer 模型的行为,试图找到解释其泛化能力的底层机制。

2. 发现普适的“规律”:Scaling Law 和 Supercollapse

这种新科学的典型例子是口头报告 “Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks”。该论文取得了一项引人注目的发现:当模型按照所谓的 计算最优缩放规律 (Compute-Optimal Scaling Laws) 进行训练时,其学习动态——跨越各种模型尺寸、数据集和架构——可以被归结到一条单一的 普适曲线 上。这种 “超叠加”(Supercollapse) 现象表明,神经网络训练过程中存在着深刻的、类似物理学的规律性。

“Scaling Laws” 描述了模型性能如何随着训练数据量、模型大小和计算量的增加而变化。 研究表明,在一定范围内,模型性能的提升与这些因素之间存在着幂律关系,这意味着可以通过增加计算资源来预测模型性能的提升。 这种发现对于指导模型训练和资源分配具有重要意义。 例如,DeepMind 的 Chinchilla 模型,通过优化计算量和模型大小的比例,在相同的计算资源下,获得了比之前更大的模型更好的性能,验证了 Scaling Laws 的有效性。

3. 揭秘涌现属性:Grokking 现象

另一个神秘现象是 “Grokking”——模型在训练性能达到平台期后,泛化到新数据的能力突然且显著提高。本次会议的研究表明,Grokking 并非神经网络独有,它也发生在更简单的模型中,这表明它是特征学习中一个更基本的原则,与模型从记忆到更复杂的通用解决方案的过渡有关。

Grokking 现象挑战了我们对机器学习模型训练过程的传统理解。 过去,人们认为模型训练到一定程度后,性能提升会逐渐放缓,甚至停止。 但是,Grokking 表明,模型在看似停止学习后,仍然在内部进行着更深层次的学习,从而获得了更好的泛化能力。 这种现象提示我们,需要更加深入地研究模型内部的学习机制,以更好地理解和利用这种涌现属性。

4. 将艺术转化为科学:持续预训练 (CPT)

这种科学方法也被应用于常见的行业实践中。持续预训练 (Continual Pre-Training, CPT) 长期以来都是一种经验性的艺术。一篇新论文专门为 CPT 开发了第一个缩放规律,提供了一个预测框架,帮助从业者做出有原则的决策,了解如何最好地获取新知识而不会忘记旧信息。

CPT 指的是在预训练模型的基础上,使用新的数据进行进一步的训练。 这种方法可以使模型适应新的任务和领域,但同时也存在着忘记旧知识的风险。 新论文提出的 Scaling Laws 可以帮助从业者更好地控制 CPT 过程,避免灾难性遗忘,并最大限度地提高模型在新任务上的性能。 这项研究对于实际应用具有重要的指导意义,可以帮助企业更好地利用预训练模型来解决实际问题。

5. 立场文件占据中心舞台:伦理、法律和社会影响

或许该领域成熟的最明显信号是 “立场文件” 在会议最负盛名的口头报告轨道中前所未有的突出地位。这些论文不报告新的技术成果。相反,它们就该领域应该做什么、应该如何表现以及应该优先考虑什么提出了令人信服的论点。它们被项目委员会选中是一个强有力的声明:关于 AI 的过程、伦理影响 的辩论现在被认为与任何技术突破一样重要。

6. 治理与法律:监管与合规

两篇论文 “Position: Generative AI Regulation Can Learn from Social Media Regulation” 和 “Position: Current Model Licensing Practices are Dragging Us into a Quagmire of Legal Noncompliance,” 表明该社区正在积极参与其帮助创建的混乱法律环境,寻求避免过去的错误和未来的法律风险。 生成式 AI 的快速发展带来了许多新的法律和 伦理 挑战,例如版权侵权、虚假信息传播和隐私泄露等。 这两篇论文呼吁制定明确的法律法规,以规范生成式 AI 的使用,并保护用户的权益。 此外,它们还强调了模型许可的重要性,认为不明确的许可条款可能会导致法律纠纷和创新受阻。

例如,关于生成式 AI 生成内容的版权问题,目前存在很大的争议。 一些人认为,生成式 AI 生成的内容应该归属于开发者,而另一些人则认为应该归属于用户。 如何在保护版权的同时,促进生成式 AI 的发展,是一个亟待解决的问题。

7. 社会影响:关注未来工作

“Position: AI Safety should prioritize the Future of Work” 对安全话语提出了有力的批评,认为它过于关注推测性的长期风险,而忽略了 AI 驱动的就业岗位流失和经济不平等带来的直接和具体的威胁。 AI 技术的发展对劳动力市场产生了深刻的影响。 一方面,AI 可以提高生产效率,创造新的就业机会;另一方面,AI 也会取代一些传统的工作岗位,导致失业和社会不稳定。 这篇论文呼吁关注 AI 对就业的影响,并采取措施来应对可能出现的失业问题。

例如,自动化技术已经取代了许多制造业和服务业的工作岗位。 为了应对这种趋势,政府和社会需要加强对失业人员的培训和支持,帮助他们适应新的工作岗位。 此外,还需要探索新的经济模式,例如普及基本收入,以应对可能出现的长期失业问题。

8. 科学诚信:同行评审与基准测试

该社区也以批判的眼光审视自身。“Position: The AI Conference Peer Review Crisis Demands Author Feedback and Reviewer Rewards” 直接指出,该领域爆炸性的增长正在给支撑其科学进步的同行评审机构带来压力。另一篇论文 “Position: Medical Large Language Model Benchmarks Should Prioritize Construct Validity,” 认为,用于医学等高风险领域的当前基准未能达到可信评估所需的严格科学有效性标准。

随着 AI 领域的快速发展,越来越多的论文被提交到各大 AI 会议。 这给同行评审系统带来了巨大的压力,导致评审质量下降,甚至出现学术不端行为。 这篇论文呼吁改革同行评审系统,加强对评审员的激励,并提高评审的质量。 此外,论文还强调了基准测试的重要性,认为基准测试应该能够真实地反映模型的性能,而不是仅仅追求高分。

例如,一些医学大语言模型的基准测试仅仅测试了模型对医学知识的记忆能力,而忽略了模型在实际临床应用中的表现。 这样的基准测试无法真实地反映模型的价值,甚至可能会误导医生。

9. 新的成熟:跨学科融合

这些辩论的突出标志着 AI 研究界可以在纯粹的技术孤岛中运作的时代的结束。这项技术的影响现在是如此深刻和深远,以至于其创造者不能再将自己与他们工作的后果分开。他们正在被迫——并且正在积极选择——承担社会学家、律师、经济学家和伦理学家的责任。其他学科融入机器学习的核心话语是该领域新发现的成熟的最终标志。

总而言之,ICML 2025 的议题反映了 人工智能 领域正在经历的深刻变革。从关注技术细节到探索 普适规律,再到积极承担 伦理法律 责任,AI 社区正在朝着更加成熟和负责任的方向发展。 这意味着 AI 的发展不再仅仅是技术问题,而是需要跨学科的合作,共同应对 AI 带来的机遇和挑战。 只有这样,我们才能确保 AI 能够真正地服务于人类,并创造一个更加美好的未来。