当下关于人工智能(AI)安全的讨论,大多聚焦于算法、对齐和不可预测的目标。我们能否教会超级智能AI如何行为?又能否用规则将其约束?这些算法对齐的努力占据了讨论的主流。然而,即使是一个完美对齐的AI,如果它以不受限制的规模和速度运行,也可能带来风险。这时,物理学就介入了:热力学的限制,如同无法逾越的铁壁铜墙,限制了任何计算机——即使是天才般的AI——在不耗费巨额能源和产生巨大热量的情况下所能做的事情。本文将深入探讨能源效率冷却技术以及电力基础设施在AI安全中的重要作用,阐述为何热力学可能是AI安全的关键,以及如何通过限制能源消耗和有效散热来管控AI的发展。

能源效率:算力提升的瓶颈

过去几十年,计算能源效率的提升速度惊人。20世纪末,每焦耳的计算工作量大约每1.5年翻一番,这就是著名的库梅定律。然而,自2010年后,这一速度明显放缓。在2015年左右,效率翻倍的时间延长到了大约每2.6年一次。这意味着,早期的超级计算机每十年能源效率能提升100倍,而现在最多只能达到16倍。这种能源效率增长的停滞,不仅仅是一个技术指标,它可能决定了人类水平AI能够发展到何种程度,以及发展过程中的安全性。

具体来说,我们可以看看大型语言模型的发展历程。从GPT-2(15亿参数)到GPT-4,模型规模呈指数级增长。GPT-2可以在单个服务器级的GPU上运行,功耗适中,生成每个token可能只需要几毫焦耳的能源。但是,当规模扩大到GPT-3(1750亿参数)及以上时,OpenAI自己的数据显示,用GPT-3生成100页的文本大约消耗0.4千瓦时的电力。这大约是每页2.5瓦时。而当大型语言模型全速运行时,可能会消耗数千瓦的电力来生成冗长的输出或代码。据估计,在典型条件下,GPT-4级别的模型每生成一个token需要消耗2-10焦耳的能源,具体取决于硬件和批量大小。这意味着,在当今最好的GPU上,每生成10亿个token可能需要消耗0.5-2.5千瓦时的电力。

为什么在新型芯片不断涌现的情况下,每次推理的能源消耗下降的速度不够快呢?原因有二:晶体管缩放的收益递减以及内存和空闲成本等开销。英伟达最先进的H100 GPU每秒可以执行近一千万亿次运算,每次乘加运算在峰值效率下消耗约1.2皮焦耳。然而,在实践中,内存访问、部分利用和数据移动会增加每个token的实际能源消耗。Transformer模型需要消耗大量电力来将数据从VRAM传输到计算核心。即使算术运算本身接近朗道尔极限,SRAM泄漏(即使在空闲时晶体管也会泄漏电流)也会设定一个基准功耗。随着模型变得越来越大,我们通常会投入更多的芯片来完成任务,即使每次运算的效率有所提高,也会增加总能源消耗。最终的结果是,每token的焦耳数并没有大幅下降;在某些情况下,尽管硬件有所改进,但较新的、更大的模型每次查询消耗的总能源反而比之前的较小模型更多。

热量管理:AI发展的硬约束

AI消耗的所有焦耳最终都会转化为热量。高功率AI集群现在类似于高性能计算中最热的地方,一个机架的尖端GPU很容易散发50-100千瓦的热量。处理这种热量负荷是一个主要的经济和工程挑战。传统的空气冷却(风扇、冷水机、高架地板数据中心)在超过每机架约15千瓦时就显得力不从心。增加空气流动可能会在服务器室内造成飓风,并且在一定程度上空气根本无法足够快地带走热量。这就是为什么AI领导者正在转向液体冷却,要么将流体泵入连接到芯片的冷板,要么将整个服务器浸入电介质浴(浸没式冷却)。

冷却的经济性可以用PUE(电源使用效率)等指标来衡量。一个典型的现代数据中心的PUE可能为1.2-1.3,这意味着为IT设备供电的每1瓦电力中,约有0.2-0.3瓦用于冷却、风扇和电源调节。旧的空气冷却设施通常更糟(PUE为1.5或更高)。相比之下,先进的浸没式冷却系统已证明PUE约为1.03——实际上所有能源都用于计算,只有3%的开销用于冷却(ASHRAE,2024)。差异是巨大的:一个空气冷却的20兆瓦设施可能会浪费约5兆瓦用于冷却基础设施,而一个浸没式冷却的设施可以将这一数字减少到1兆瓦以下。对于AI安全而言,这一点很重要,因为冷却能力成为一种节流阀。一个消耗10兆瓦电力的AI系统必须排出10兆瓦的热量。如果它缺乏异构冷却,它将过热并降低速度。因此,获得超高效率冷却技术(如两相浸没或低温技术)可以作为战略瓶颈:大规模AI不仅需要大量的GPU,还需要保持GPU冷却的手段。

然而,高科技冷却也带来成本。浸没式冷却系统需要专门的罐体外壳、泵,而且通常需要昂贵的工程流体。浸没式设置的资本支出可能很高,但从长远来看,运营节省同样显著(例如,在一项研究中,冷却能源使用量减少高达95%)。数据中心设计人员还必须权衡能源再利用:来自AI集群的废可以被捕获用于建筑物或工业过程的供暖。一个名为ERF(能源再利用因子)的指标跟踪这一点——本质上是有多少废被利用。在北欧国家,一些超级计算机为区域供热系统提供能源,将AI的热量转化为一项优势而非缺陷。随着社会寻求可持续计算,这种方法可能会变得更加普遍(甚至可能被强制执行)。尽管如此,无论是否再利用,未来一个试图将其计算量增加一倍的超级智能AI都将面临一道二次方壁垒:两倍的计算量意味着两倍的热量。如果没有非凡的冷却,它就有烧毁其电路的风险。从某种意义上说,热力学定律在守卫:任何“流氓”AI都必须与传定律协商,否则它将真正地崩溃。

电网容量与碳排放:AI的能源边界

也许最具深远影响的限制是电网本身。AI对电力的需求增长如此之快,以至于规划者和政策制定者已经注意到。2023年,全球数据中心消耗了约240太瓦时的电力——约占世界需求的1%。到2030年,即使是保守的预测(在AI繁荣之前)也将这一数字接近约520太瓦时,而考虑到广泛采用AI的新分析表明,数据中心的使用量可能会增加一倍以上,达到约945太瓦时(IEA,2025)。为了进行比较,945太瓦时约等于日本目前的年耗电量。这种激增的很大一部分来自AI训练和推理工作负载。与传统的云服务(通常处于空闲状态或处理零星的用户查询)不同,尖端的AI模型倾向于在高利用率下在耗电加速器上运行。当一家科技公司训练一个具有数万亿参数的前沿模型时,它可能会连续数周消耗数十兆瓦的电力。当数百万用户开始全天运行AI助手时,推理计算同样会在电网中累积。

这提出了两个安全角度。首先,电网稳定性:不受控制的AI甚至只是不协调的AI开发是否会使电网紧张到导致停电或对能源的冲突?这听起来很极端,但已经有一些地区(如爱尔兰和美国的部分地区)的数据中心增长速度超过了电网升级速度。如果未来的AI系统决定复制自己或囤积资源,它将受到非常实际的问题的限制,即在不跳闸或引起注意的情况下获得足够的电力。其次,碳排放:除非电网完全脱碳,否则AI的能源使用将转化为大气中的二氧化碳。如果一个由AI驱动的企业单独消耗比如说每年50太瓦时的能源,如果由全球平均电网组合供电,将排放约2000万吨二氧化碳,相当于一个小国的排放量。因此,AI安全与气候安全相交。一个超级智能AI可能会优化其目标而不考虑人类的气候目标,但如果其计划需要一个因化石燃料使用而过热的星球上的能源,它将与物理现实发生冲突。相反,关注气候变化的政策制定者可能会使用碳排放法规作为节制能源密集型AI项目的工具(例如,要求大型AI训练使用一定比例的可再生能源)。

本质上,电网容量成为AI规模的调节器。通过有意的政策或自然限制,无法立即召唤数百兆瓦电力是对任何潜在的快速AI起飞的制约。这也开启了关于优先考虑哪些AI用途值得使用电力的对话。我们将稀缺的清洁能源分配给运行开放式模拟的AGI,还是分配给医院和工厂?确保未来的AI开发与电网建设保持一致(甚至通过AI优化能源系统来帮助电网建设)现在是更广泛的安全辩论的一部分。这提醒我们,即使是最数字化的智能最终也是在铜、钢和混凝土上运行的——即人类控制的发电厂和电线的基础设施。

反驳与辩证:技术突破能否打破热力学限制?

重要的是要解决以下反驳:“未来的技术难道不能克服这些限制吗?”乐观主义者可能会指出绝热或可逆计算、量子计算机或在接近0 K下运行的超导电路。事实上,这些方法旨在规避通常的能源浪费。从理论上讲,可逆计算机通过永不擦除信息来避免朗道尔的热量成本——它可以取消计算其中间步骤并回收计算的“面包屑”。量子计算类似地使用可逆的酉算子(直到测量),并且原则上可能需要每个逻辑运算的最小能源

然而,实际差距是巨大的。可逆逻辑已经研究了几十年,虽然已经在实验室环境中得到证明,但它遇到了速度和内存的权衡。绝热电路必须运行缓慢(以避免产生熵),并且仍然面临泄漏电流和信号噪声。事实上,最近的一项严格分析发现,即使是理想的可逆计算机也必须散发一些热量,除非以无限慢的速度运行——例如,仅充电电线和移动信号就会产生热量,除非以极慢的速度完成(Earley,2022)。目前可逆芯片的原型在专业条件下运行的能源仍然比每个运算的朗道尔极限高10倍。因此,虽然可逆计算仍然是一个有希望的研究领域(并且可能为AI效率带来巨大的收益),但它并不是消除热力学定律的魔杖。充其量,如果可行,它可能会延长库梅定律一段时间——可能在效率上增加额外的10-100倍(Ho et al., 2023)。

那么量子计算机呢?它们也不是没有能源消耗的。一旦包括稀释冰箱、控制电子设备和纠错开销,今天的量子硬件实际上比经典计算机每个运算消耗更多的电力。一个完全纠错的、百万量子比特的量子AI可能是一个能源消耗大户,因为它需要冷却,即使每个门原则上都是可逆的。除非在量子效率方面取得突破,否则量子AI仍然会通过其控制系统排放热量,并且必须遵守设施电力限制。

超导计算(数字或量子)是另一个角度:在低温(比如4 K)下,您可以拥有几乎为零的电阻,从而大大减少I²R加热。来自麻省理工学院林肯实验室和其他机构的研究表明,超导逻辑可以在4 K下以低至约1阿托焦耳(1×10⁻¹⁸ J)的功耗执行翻转,这非常低(并且比今天的CMOS每比特能源好约1000倍)。问题是?冷却到4 K及以下本身就是能源密集型的——除非大规模进行,否则制冷开销可能会超过节省的电力。此外,1 aJ仍然比4 K下的10⁻²³ J朗道尔极限高几个数量级,因此即使是超导电路也不能消除热力学成本;它们只是稍微改变了平衡。

总而言之,奇异的计算范例可以弯曲能源曲线,但它们不会打破它。每种范例都伴随着新的复杂性和资源需求(无论是极冷、更多的硬件用于可逆性还是稀有材料)。我们当然应该追求它们——它们将使AI更高效和可持续——但我们不应假设它们使物理学变得无关紧要。在可预见的未来,任何做有用的事情的AI都会产生熵和热量热力学仍然是即使是最聪明的AI也无法摆脱的束缚,至少在没有冒险进入我们尚未掌握的物理学领域的情况下。

结语:热力学,最后的安全保障

最终,对于高级AI来说,最有效的“对齐”机制可能根本不是算法——它可能是不起眼的电表。一个可能偏离人类利益的AI仍然不能无视停电或烧毁的保险丝。通过认识到能源热量和基础设施是基本约束,我们为AI对齐的抽象问题增加了切实的安全层。AI的未来很可能不仅在代码和伦理中决定,而且在瓦特和度数中决定。毕竟,AI的运行热量只能达到物理定律(和电费)允许的程度。在全能的AI与热力学第二定律之间的较量中,押注后者吧。

关键词总结:

热力学能源热量能源效率冷却