大语言模型(LLM)凭借其生成类人文本、辅助编程和预测复杂模式的能力,近年来风靡全球。自2010年末兴起以来,人们对它们的期望值一路飙升,普遍认为LLM将以空前的速度带来突破性的科学发现,从而彻底改变科学领域。然而,2025年已过半,一个问题仍然萦绕在人们心头:究竟何处才能寻觅到完全由LLM驱动的科学突破?本文将深入探讨当前形势,基于最新研究成果,剖析为何LLM驱动的发现仍然难以捉摸,以及它们在当今科学领域中所扮演的角色。

LLM在科学领域的承诺与现实

LLM的潜力毋庸置疑,它们由庞大的数据集和强大的计算能力驱动,擅长文献综述、数据分析和假设生成等任务。例如,GitHub Copilot加速了编码过程,而BioBERT等模型则简化了生物医学研究。LLM作为自主科学代理,在无需人工干预的情况下做出新发现的可能性,一度激发了人们的极大热情。麦肯锡在2018年初的一份报告中估计,包括LLM在内的人工智能技术,到2030年可能为全球GDP增加13万亿至26万亿美元,而科学将是主要受益者之一。然而,2025年的现实却呈现出更为细致的景象。

寻觅LLM驱动的发现:2025年的现状

为了了解LLM驱动的科学的现状,我(指原文作者Damian Tran)对2025年完全归功于LLM的发现进行了全面搜索,仔细研究了最新的研究、新闻文章以及X平台(原Twitter)上的讨论。重点在于寻找LLM作为主要代理,而不仅仅是作为工具或研究对象而做出的突破。截至2025年6月20日,没有广泛报道的科学发现被认为是LLM独立完成的。相反,LLM主要推动了新型生产力工具的创建,但这些工具对人类主导的研究的实际生产力的影响尚无法验证。

工具的涌现:LLM4SD与Llamole

例如,2025年2月发表在《自然·机器智能》(Nature Machine Intelligence)上的一篇论文介绍了LLM4SD(LLM for Scientific Discovery,用于科学发现的大语言模型),这是一个在生理学、生物物理学和量子力学等58项研究任务中进行测试的框架。LLM4SD在预测分子特性(如毒性和溶解度)方面的准确率提高了高达48%,但这仅仅是工具和方法的改进,而非具体的科学发现。

同样,2025年4月,麻省理工学院(MIT)新闻发表的一篇文章重点介绍了Llamole,这是一种将LLM与基于图的人工智能相结合进行分子设计的方法,将成功率从5%提高到35%。虽然前景广阔,但这仅仅是流程的改进,而不是独立的突破。默克公司在2025年2月自我报告了利用LLM加速药物发现的情况,其模式相同:辅助性而非变革性。

我们可以看到,LLM帮助我们以不同的方式创建了更多的工具,并承诺可以加速研究进程。然而,尽管所有领先的LLM都在FrontierMath和GPQA等基准测试中取得了令人瞩目的结果,但我们尚未在非人类主导的全新发现中看到实际成果。我们正在迎来由LLM制造的、旨在潜在提高生产力的工具的过剩,但尚未在非基准用例中获得可验证的成果。

研究关于LLM而非由LLM完成的研究

一项发现最初看起来很有希望:2025年6月9日,《自然·机器智能》上的一项研究发现,多模态LLM可以发展出类似人类的物体概念表征,这表明它们具有类似人类的认知能力。Lifeboat News对此进行了报道,并在X平台上引发了讨论,这项研究被誉为人工智能认知领域的一次飞跃。然而,这是一项关于LLM而非LLM完成的发现,它侧重于LLM的内部机制,而不是一项新的科学发现。

X平台上的讨论与怀疑

X平台上的帖子揭示了公众和专家的怀疑态度。用户批评了关于LLM认知的说法,认为这是拟人化的,并辩称这些说法反映的是高级模式匹配,而非真正的理解。另有一篇帖子提到LLM预测肝癌治疗结果,但缺乏细节或可验证的来源。这些讨论强调了一个更广泛的辩论:LLM能否真正“发现”?或者它们仅仅是复杂的工具?

LLM驱动的发现为何难以捉摸?

有几个因素可以解释2025年为何不存在独立的LLM驱动的发现:

  • 推理局限性:LLM擅长模式识别,但缺乏因果推理或深厚的领域专业知识。突破往往需要人类的直觉和创造力,这是LLM无法完全复制的。正如兰德公司(RAND)的一篇评论所指出的,关于LLM产生新想法(例如,由OpenAI产生)的说法仍然无法验证。
  • 验证瓶颈:科学发现取决于经验验证——实验、同行评审和复制,而LLM无法执行这些操作。即使LLM生成了一个假设,也必须由人类科学家对其进行测试,这会减慢整个过程。
  • 数据约束:LLM依赖于高质量、特定领域的数据,而这些数据通常是专有的或不完整的。在最前沿的研究中,数据稀疏,LLM的有效性就会降低。
  • 辅助角色:LLM被设计为工具,而不是自主代理。像LLM4SD或谷歌的Tx-LLM这样的工具可以增强预测和分析能力,但人类科学家才是研究的驱动力。2025年2月的一项arXiv调查强调了LLM在文献检索和实验中的辅助作用。
  • 历史先例:像互联网或电力这样的变革性技术,需要几十年的时间才能产生广泛的影响。LLM仍处于早期阶段,可能也会遵循类似的轨迹。

LLM在科学领域的当前影响

虽然没有独立的发现,但LLM正在逐步提高科学的生产力:

  • 文献综述:正如Charged Magazine一篇关于基因组模式识别的文章所见,LLM可以总结庞大的数据集。
  • 假设生成:像LLM4SD这样的工具可以提出分子特性,从而加速药物发现。
  • 数据分析:美国宇航局(NASA)自我报告称,LLM加速了科学过程,但没有指出2025年的具体发现。

这些贡献意义重大,但尚未达到一些人预期的革命性突破。

展望未来

2025年LLM驱动的发现的缺失并未降低它们的潜力。随着基础设施的完善、数据访问的扩大以及模型的演进,LLM可能会发挥更核心的作用。谷歌研究院在2025年4月提出的CURIE和SPIQA等基准测试旨在评估LLM的科学问题解决能力,这预示着未来的进展。

就目前而言,LLM是强大的盟友,而非孤身先锋。它们的影响可能类似于互联网的逐渐崛起:最初是微妙的,然后是变革性的。随着2025年的展开,可能会出现新的发现,因此密切关注X平台和《自然》等期刊至关重要。

互联网上充斥着大量噪音,各组织都在吹嘘自己内部(但无法验证)的LLM采用成功案例。高管们正在陷入“货物崇拜”(cargo-culting)和摆姿态,以显得具有前瞻性。没有人能眼睁睁地看着自己没有赶上人工智能提高生产力的浪潮,否则他们就会被贴上“适应缓慢”的标签。到目前为止,各组织看到速度提升最显著的用例是在软件开发中,但值得注意的是,大多数软件也是与生产力相关的

在生产力链的末端,需要一位真正的领域专家来以某种方式被这些工具加速。鉴于领域专家最有价值的工作是经过深思熟虑、精心策划并由经验驱动的:目前这些生产力工具不太可能加速这类工作。我们看到,生产力工具主要解决的是低价值的知识工作(如总结),而不是发现和创造力领域的高价值知识工作。

对领域专家的需求不会消失

这里重要的行动呼吁是面向人工智能研究人员、数据科学家、软件开发人员以及各个垂直领域的领域专家的。LLM不会很快取代你们。

未来5-10年科学进步的速度可能与过去5-10年相同,直到真正的通用人工智能(AGI)被发现为止,而AGI很可能是一个复杂的模型架构,而不是一个庞大的多模态模型。这种架构将需要资本投资、仔细的实验以及专家的规划和协调。

这种性质的过早炒作所带来的危险是,极具才华的研究人员可能会因为担心人工智能技术会让他们过时而不敢踏上漫长的学术道路。我们将在即将取得最重要的发现之前扼杀科学进步。

也许在10年或更长时间之后,世界将会迎来知识工作的价值和性质发生彻底改变的时代。这个世界也将是终点:一个后劳动力、充满富足的世界,医疗保健、技术、金融、政治学和许多其他领域将会持续发生革命。

与此同时,我们仍然需要才华横溢的学者来磨练他们的技能,并运用周密的思考和严谨的实验过程来实现新的、突破性的发现。

结论:人机协作的未来

在2025年,寻求LLM驱动的科学突破的努力仍然没有实现,截至6月20日,没有报告任何独立的发现。

LLM正在通过支持和加速来重塑科学,但它们在推理、数据和验证方面的局限性使它们只能扮演辅助角色。对LLM认知能力的争论,既有研究的支持,也有怀疑论者的质疑,突显了在人工智能时代定义“发现”的复杂性。

在我们等待下一次飞跃之际,LLM提醒我们,科学是人类智慧和机器潜力之间的一种协作舞蹈。LLM目前的状况表明,它们可能面临瓶颈,下一阶段的进步可能不是来自人工智能的自我完善,而是来自人类领域专家的仔细思考这一古老而可靠的方法。最终,LLM的真正价值在于其作为工具的角色,而非取代人类的自主代理。我们需要在数据约束下,克服推理局限性验证瓶颈,从而在假设生成文献综述以及数据分析等方面最大化LLM的潜力,最终实现真正意义上的科学突破