人工智能领域日新月异,新的模型、技术和见解层出不穷。汤森路透实验室(TR Labs)的“NLP Topics”小组,在2025年第一季度深入探讨了AI应用、模型效率和LLM推理等关键议题。本文将带你深入解读TR Labs研究讨论的核心内容,一窥AI的未来发展方向。
AI应用的经济洞察:Claude对话揭示的使用模式
核心关键词:AI应用,经济任务,Claude
Anthropic公司对数百万次 Claude AI 助手对话的分析报告“人工智能执行哪些经济任务?来自数百万次 Claude 对话的证据” (Which Economic Tasks are Performed with AI? Evidence from Millions of Claude Conversations)为我们提供了关于AI应用的宝贵实证数据。该研究将用户与 Claude 的互动映射到美国劳工部 O*NET 数据库中定义的特定工作任务,揭示了AI在不同职业中的渗透情况。
研究发现,软件开发和写作任务占据了AI应用的大部分(近 50%),但 AI 的使用并非局限于科技领域。约 36% 的职业表明,AI 被用于至少四分之一的任务,表明 AI 具有广泛的渗透性,尽管尚未达到深入应用的程度。 计算机/数学领域的使用率最高,其次是艺术/设计/媒体和教育。 值得注意的是,体力劳动工作的使用率最低。AI 使用在需要认知技能(阅读、写作、批判性思维)的任务中达到顶峰,并且通常在需要学士学位且属于中上工资等级的职业中。 在最高和最低工资/技能水平上,使用率均有所下降。
一个重要的发现是任务在人类增强(如学习或迭代——57%)与自动化(直接满足请求——43%)之间的划分。 这表明 AI 更多地被用作辅助工具,而不是完全取代人类。 但值得注意的是,该研究仅关注 Claude.ai 网络界面,不包括 API 数据。 这可能会低估企业的使用情况,并可能夸大增强相对于通过 API 集成的真正自动化的重要性。 假设一家律师事务所使用 Claude API 自动审查合同,提取关键条款并标记潜在风险。 如果只考虑 Claude.ai 网站的使用情况,则会忽略此自动化流程,导致对 AI 在法律领域的实际影响评估不足。
模型效率的飞跃:MoE与ModernBERT的创新之路
核心关键词:模型效率,MoE (Mixture-of-Experts),ModernBERT
在追求更强大、更高效的 AI 模型的道路上,研究人员不断探索新的架构和训练方法。 TR Labs 的讨论重点关注了两种颇具前景的策略:MoE(混合专家模型)和改进的编码器架构,其中涌现出了OLMoE 和 ModernBERT 两种代表性的模型。
MoE 模型通过将标准前馈网络替换为多个“专家”网络和一个“路由器”网络,从而提高效率。 路由器决定哪些专家处理哪些输入 token,从而实现稀疏激活(只有一部分参数处于活动状态),减少计算量。 Maarten Grootendorst 的 “混合专家模型 (MoE) 可视化指南” (A Visual Guide to Mixture of Experts (MoE)) 使用 50 多个可视化效果,阐明了 MoE 概念,例如专家和路由器的功能、稀疏性的优势以及负载平衡的挑战。 开放混合专家语言模型 OLMoE-1B-7B 使用稀疏 MoE 架构,拥有大量参数(70 亿),但对于任何给定的输入 token,仅激活一小部分参数(13 亿)。 OLMoE 的性能优于具有相似激活参数计数的模型,甚至优于一些较大的密集模型,同时只需要较少的计算量进行训练。 OLMoE 论文还解释了 MoE 的工作原理,分析了“专家专业化”,发现 OLMoE 中的不同“专家”发展出专业角色,从而提高了其效率。
另一方面, ModernBERT 表明,通过将现代技术应用于已建立的架构,仍然可以获得显著的收益。 ModernBERT 融入了 rotary embeddings (RoPE)、LayerNorm 预归一化、GeGLU 激活以及用于提高效率的交替全局/局部注意力等现代功能。 通过使用模型解填充和硬件感知设计等技术,可以提高训练和推理速度,尤其是在长序列(最多 8192 个 token)上。 ModernBERT 在各种下游任务中实现了最先进的 (SOTA) 整体性能,对抗所有现有的编码器模型,包括在 GLUE (NLU) 和 BEIR(短上下文检索的新技术)方面取得的出色成果。 考虑到 ModernBERT 在传统编码器架构上的创新,我们可以想象一个企业利用它来构建更高效的文档摘要系统。 ModernBERT 的架构优化使得该系统能够快速处理大量文本数据,提取关键信息,并生成简洁的摘要,从而显著提升工作效率。
LLM推理的优化与理解:从多智能体到思维模式
核心关键词:LLM推理,多智能体,思维模式,LIMO
提升大型语言模型 (LLM) 的推理能力是 AI 研究的主要前沿。TR Labs 的讨论探讨了改进推理、理解其局限性甚至提高其效率的创新方法。 其中,多智能体微调和结构化思维模式是两个值得关注的方向。
“多智能体微调:通过多样化的推理链进行自我改进”(Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains) 提出了一种创建模型“社会”的巧妙解决方案。 从基础模型的副本开始。 让它们“辩论”问题的解决方案,相互批判和完善对方的答案。 微调一些模型以成为更好的“生成器”(提出初步解决方案),而另一些模型则成为更好的“批评者”(评估响应)。 每个智能体都从辩论数据的不同子集中学习,这些子集证明了它们的角色是成功的。 这种多智能体方法保留了多样化的推理路径,与单智能体方法相比,在更多轮次中实现了持续改进。 它在各种 LLM 的数学推理任务中显示出强大的结果。 这种多智能体方法的风险在于,如果智能体加强彼此的偏见或不正确的推理,将会发生什么?
“思维模式-21k:通过思维模式进行 LLM 推理” (ThinkPatterns-21k: LLM Reasoning Through Thinking Patterns) 创建了一个数据集,其中指令-响应对通过显式内部“思维”步骤进行扩充,从而探索了是否可以教 LLM 如何思考。 ThinkPatterns-21k 包括 21,000 个示例(目前仅限英语),每个示例都有五种不同的生成思维模式(例如,非结构化独白、分解、自我辩论、自我批评)。 较小的模型(< 30B 参数)通常受益于结构化思维模式(例如分解)。 较大的模型(> 30B 参数)通常在使用较少结构化的自由形式“非结构化独白”思维时表现更好。 结构化模式甚至可能会降低最大模型的性能。 这表明,我们提示或训练模型“展示其工作”的方式可能需要根据模型的规模进行定制,从而有可能超越对非常大的模型进行微调。 试想一下,一个医疗诊断 AI 系统,在诊断复杂病例时,可以借鉴 “ThinkPatterns” 的理念,模拟医生问诊时的多重思维模式,例如:
- 分解: 将复杂症状分解为多个关键因素,逐一分析。
- 自我辩论: 针对不同的诊断假设进行正反方辩论,评估可能性。
- 自我批评: 对初步诊断结果进行自我质疑,排除潜在的误判。
通过融合结构化思维模式,该系统可以更全面、严谨地分析病情,提升诊断的准确性和可靠性。
为了实现推理效率,”LIMO:少即是多推理”(LIMO: Less is More for Reasoning) 表明,如果基础模型具有来自预训练的全面知识,则可以通过最少的高质量示例(“认知模板”)来激发复杂的推理能力。 LIMO 仅在 817 个示例上进行训练,在具有挑战性的数学基准测试(AIME、MATH)中取得了最先进的结果,大大优于在 >100k 个示例上训练的模型。 它还显示出对未见问题的强烈概括。 成功的关键因素在于预训练模型知识库的质量和小型训练集中推理链的质量/细节。 在这里,数据质量胜过数量。 例如,一个金融分析 AI 系统,即使只接受过少量高质量的案例训练,也能基于其预训练的金融知识,快速掌握复杂的投资分析技巧。 关键在于,这些案例包含了详细的推理链,展示了如何将金融知识应用于实际问题。
总结与展望
TR Labs 的这些研究涵盖了AI应用的实际落地、模型效率的优化策略以及LLM推理的深度探索,为我们描绘了 AI 发展的清晰蓝图。 从分析现实世界的 AI 应用到开创性的架构、创新的训练方法以及对模型可解释性的见解,这些研究强调了 AI 的多方面进展。 每一项研究都为拼图贡献了至关重要的一块,从而提高了性能、效率、理解和应用。
随着 AI 以空前的速度不断发展,这些讨论有助于驾驭其复杂的格局,促进创新并应对新兴的挑战。 汤森路透实验室(TR Labs)的研究工作揭示了 AI 的应用场景正在不断扩展,模型效率的提升路径日益清晰,LLM 推理能力也在不断突破。 展望未来,我们有理由相信,AI 将在各行各业发挥更大的作用,为人类带来更多的福祉。
持续参与此类多元化的研究对于负责任地发挥 AI 的全部潜力至关重要。让我们共同期待下一季度 TR Labs 的 “重要 NLP 阅读:TR Labs 研究讨论亮点” 版本,我们将继续探索 AI 领域的尖端进展。