近期,DeepSeek R1的发布在人工智能(AI)社区引发了激烈的讨论,标志着大型语言模型(LLMs)发展的一个重要时刻。这款由一家中国对冲基金支持的开源推理模型迅速引起了广泛关注——在应用下载量上超越了ChatGPT,导致NVIDIA股价波动,并引发了OpenAI和谷歌等主要AI玩家的反应。但抛开炒作,DeepSeek R1对AI发展的未来究竟意味着什么?在ODSC Ai X Podcast的最新一集中,数学家兼AI专家Sinan Ozdemir深入分析了DeepSeek R1的技术突破和市场影响,将炒作与现实区分开来。
DeepSeek R1模型解析:专家混合方法
DeepSeek R1基于专家混合(MoE)模型构建,这是一种根据不同输入选择性激活不同“专家”子网络的技术。这使得模型在处理不同类型的任务时能够高效,不必一次性使用所有参数。尽管OpenAI的GPT-4长期以来被推测使用类似的方法,但DeepSeek R1是首批公开可用且在高性能水平上整合MoE的模型之一。
虽然专家混合方法并不新颖,但DeepSeek R1独特的训练方法引起了关注。与OpenAI的人类反馈强化学习(RLHF)不同,DeepSeek R1使用无需人类反馈的强化学习(RL)进行训练——这是一个关键区别。它不依赖人类评估员,而是通过迭代数学和编程问题自主学习以完善其推理能力。这种转变表明了一种新的LLM改进路径,无需人类标注的瓶颈。
推理能力重要吗?基准测试之争
围绕DeepSeek R1的最大讨论之一是其推理能力。像OpenAI的GPT-4 Turbo和DeepSeek R1这样的推理模型被设计为比标准LLMs更好地处理复杂的多步骤问题。然而,Sinan指出,推理并不总是转化为更好的结果。
在他的测试中,DeepSeek的V3模型(缺乏明确的推理能力)有时在使用简单的提示技术(如思维链)时表现超过了R1。这引发了一个问题:是否总是需要专门的推理模型,或者更小、更高效的模型在正确的引导下能否达到类似的结果?
尽管DeepSeek R1在数学繁重的基准测试中得分很高,但其在一般知识和常识推理任务上的表现仍然参差不齐。数学严谨性与现实世界问题解决能力之间的差异表明,以推理为重点的AI模型仍然有局限性。
开源AI的成本和可访问性
DeepSeek R1被誉为开源AI的重大进步。但“开源”真的能够民主化访问吗?虽然模型的权重是公开可用的,但部署它仍然是一个重大挑战。运行DeepSeek R1需要昂贵的云基础设施——AWS Bedrock估计托管它的成本约为每月35,000美元。这提出了一个重要观点:开放访问并不一定意味着广泛可用。
此外,Sinan强调,OpenAI和其他领先公司通过风险资本资助补贴模型访问。虽然DeepSeek R1免费可用,但由于自托管的高成本,用户可能仍会选择成本效益高的专有替代品。
中国日益增长的AI影响力和全球反应
DeepSeek R1讨论的一个关键方面是其地缘政治影响。该模型的快速采用突显了中国开发有竞争力AI系统的能力——这是许多西方AI社区成员现在才完全承认的现实。美国政府的反应,包括讨论禁止DeepSeek,反映了全球大国之间在AI主导地位上的更广泛紧张关系。
然而,Sinan认为对DeepSeek R1成功的反应主要是一个感知问题,而不是技术问题。如果另一家西方公司发布了具有类似能力的模型,恐慌会大大降低。实际上,AI突破建立在多年的渐进研究之上,该领域的竞争既是预期的,也是必要的。
AI的未来:推理模型的未来
DeepSeek R1的发布引发了AI发展的军备竞赛,OpenAI、谷歌和Anthropic等公司争相发布反击更新。然而,真正的问题是,像R1这样的推理模型是否会成为行业标准,或者仍然只是小众工具。
Sinan对当前形式的推理模型是否是游戏规则改变者持怀疑态度。速度和效率仍然是主要挑战——推理模型经常迫使不必要的步骤,使它们比非推理模型更慢。对于现实世界的应用,公司可能更倾向于可以微调的轻量级模型,而不是依赖于沉重、缓慢的推理架构。
最终裁决:DeepSeek R1是过度炒作还是值得关注?
DeepSeek R1被过度炒作——但仍具有重要意义。该模型代表了AI的一个有意义的进步,特别是在开源推理模型方面。然而,其影响更多是关于它所发出的信号(中国日益增长的AI能力、成本效益高的训练和强化学习的进步)而不是它今天实际交付的内容。
对于AI从业者和企业来说,信息是明确的:不要被炒作所迷惑——根据你的具体需求评估模型。推理模型是否会推动下一波AI创新,或者只是成为LLM工具箱中的另一个工具,还有待观察。但有一件事是肯定的——AI进化的步伐不会很快放慢。