华为Ascend与盘古的AI雄心：技术堡垒与开放挑战

在全球AI领域，华为正以其独特的全栈AI战略，构建一个平行于OpenAI、Google等巨头的AI宇宙。其核心在于 Ascend (昇腾) AI硬件和软件生态系统，以及基于此构建的 Pangu (盘古) 系列大模型。本文将深入探讨华为在 Ascend 和 Pangu 上的战略布局，分析其技术优势与挑战，并探讨其在AI领域中的角色与未来走向。

一、Ascend：自主可控的AI基石

面对地缘政治压力和日益增长的AI算力需求，华为选择自建“赛道”。Ascend 并非简单的GPU改造，而是从底层芯片到上层软件的全栈式AI基础设施。

1.1 硬件：定制化的NPU架构

Ascend 的核心是 NPU(Neural Processing Unit)，例如 Ascend 910B。它采用DaVinci架构，其中的Cube Units专为矩阵乘法(MatMul)优化，这是深度学习的基石。为了实现最佳效率，华为建议开发者以256的倍数调整模型张量，确保工作负载在核心计算单元之间均匀分布。每个 NPU 配备64GB的高带宽内存(HBM)，足以容纳 Pangu 等大型模型的庞大参数集。服务器内部，NPU 通过华为Cache Coherency System (HCCS)进行全网格拓扑通信。服务器之间，200 Gbps RoCE (RDMA over Converged Ethernet)链路最小化延迟。这种定制化的通信结构对于在数千个节点上训练模型至关重要。

案例：矩阵乘法优化

深度学习模型的核心在于矩阵乘法。传统的GPU虽然可以进行矩阵乘法，但并非专门为此设计，效率较低。Ascend 的Cube Units通过硬件级别的优化，极大地提高了矩阵乘法的效率。例如，在训练 Pangu Ultra MoE时，这种优化能够显著降低训练时间。

1.2 软件：全栈式开发环境

硬件是基础，软件是灵魂。华为通过全面的工具套件实现“One Platform”战略，创建一个有凝聚力的开发环境。MindSpore是全场景AI计算框架，类似于TensorFlow或PyTorch，提供基础编程层。MindSpeed和MindX分别是加速训练和应用使能的库。此外，还有MindStudio (一体化工具包)、MindCluster (集群管理)、MindIE (推理引擎)和CCAE (集群自治引擎)。

案例：MindSpore框架的应用

MindSpore框架不仅仅是一个编程工具，更是一个生态系统。它支持多种编程范式，包括静态图和动态图，方便开发者灵活地构建和调试模型。华为还积极推广MindSpore，鼓励开发者基于该框架进行创新。

1.3 生态系统：国家级的战略资产

华为的“Dual-Drive”战略旨在培育技术生态系统(与大学和研究机构合作)和商业生态系统(与开发者和合作伙伴合作)。目前，Ascend 生态系统拥有超过30万开发者，并与100多所大学合作。这不仅仅是一个项目，更是一个国家级的战略资产。

数据：开发者数量与合作院校数量

超过30万的开发者和100多所大学的参与，体现了华为 Ascend 生态系统的活力和潜力。这些数据不仅是数字，更是华为在AI领域长期投入和战略布局的体现。

二、Pangu：皇冠上的明珠

基于 Ascend 的硬件和软件基础，华为构建了 Pangu 模型家族，涵盖NLP、计算机视觉、科学计算等领域。HDC 2025展示了针对 Ascend 架构进行优化的一系列模型。

2.1 Pangu Ultra MoE：驯服7180亿参数巨兽

Pangu Ultra MoE是稀疏混合专家(MoE)模型，拥有惊人的7180亿参数。训练如此庞大的模型是一项极端的工程挑战。华为的解决方案展示了其全栈控制的优势。

案例：模型训练优化

标准通信协议(如All-to-All)效率低下。华为实施了分层EP All-to-All策略，将节点内的高带宽通信与节点间的低带宽通信分离，并与计算重叠。这实现了95%的重叠率，大大减少了空闲时间。为了将模型放入 NPU 的内存中，华为使用细粒度重计算(仅重新计算计算图中小的、必要的片段，而不是整个层)和张量交换(智能地将较少使用的激活卸载到主机内存)。MoE模型可能受到“专家不平衡”的影响，即某些专家被过度使用，而其他专家则处于空闲状态。华为开发了一个动态系统，可以预测实时负载，并自适应地将专家放置在 NPU 上，以确保均匀利用。在6000个 Ascend NPU 上训练时，Pangu Ultra MoE实现了30.0%的模型Flops利用率(MFU)，这是一个非常可观的数字，使其性能与在主流硬件上训练的模型处于同一水平，证明 Ascend 系统完全能够处理最先进的训练。

2.2 Pangu Embedded：边缘端的“快慢思考”

Pangu Embedded是一个70亿参数的模型，专为高效推理而设计。它最引人注目的特点是双系统“快慢思考”能力。系统1(快思考)为简单查询提供快速、低延迟的响应。系统2(慢思考)进行更深入、更复杂的推理，生成思维链。用户可以手动选择模式，或者模型可以根据其对查询复杂性的评估自主选择。这是通过一个两阶段训练框架实现的，该框架包括迭代蒸馏和由多源自适应奖励系统(MARS)指导的强化学习。在GPQA和LiveCodeBench等基准测试中，70亿参数的 Pangu Embedded优于Qwen3-8B和GLM4-9B等同类开放模型。

案例：推理效率提升

通过“快慢思考”机制，Pangu Embedded能够在保证准确率的同时，显著降低推理延迟。这对于边缘计算场景至关重要，例如智能家居、自动驾驶等。

2.3 DeepDiver：面向复杂真实网络的AI Agent

华为对Agentic AI趋势的回答是DeepDiver，这是一个旨在掌握开放互联网信息检索的框架。其核心创新在于解决真实网络的“混乱性”，这与用于训练许多模型的干净、结构化的维基百科数据相去甚远。为此，华为推出了WebPuzzle，这是一个旨在训练模型处理真实搜索结果中存在的冲突、噪声和不可靠信息的新颖数据集。DeepDiver训练LLM动态调整其搜索频率和深度。如果其初始答案置信度较低或问题复杂，它会本能地执行更多搜索，收集更多证据并交叉验证事实。在DeepDiver的支持下，70亿参数的 Pangu -Reasoner ( Pangu Embedded)在真实网络任务上的表现与6710亿参数的DeepSeek-R1相当。这表明，智能策略有时可以替代蛮力规模。

案例：真实网络信息检索

DeepDiver的WebPuzzle数据集模拟了真实网络环境，包含了大量噪声和冲突信息。这使得 Pangu -Reasoner能够在真实场景中进行更准确的信息检索，为用户提供更有价值的答案。

2.4 其他Pangu模型

Pangu 5.5套件甚至更广泛，包括一个300亿参数的CV模型(业内最大)、一个使用新型“三元组transformer”的预测模型，以及一个能够生成逼真的驾驶数据以训练自动驾驶汽车的世界模型，进一步强调了华为的雄心。

三、结论：技术实力与开放挑战

华为已经成功构建了一个强大的、自给自足的AI生态系统，并证明了其有能力在其上训练和部署最先进的模型。

3.1 华为的成就与挑战

华为在AI领域取得了显著的成就，尤其是在全栈式AI基础设施的构建和大型模型的训练方面。然而，华为的声誉是顶级的全球技术巨头，但其在AI领域的实际影响力似乎与这种声誉并不完全匹配。人们感觉到的更多是华为在一个封闭的环境中完善现有模式，而不是开创新的领域。

3.2 开放合作的重要性

MoE架构、快慢思考、Agentic搜索等核心思想并非AI领域的新概念。华为的成就在于在其专有堆栈上的出色实施和细致优化，但并非人们期望的具有突破性的概念飞跃。例如，Pangu Pro MoE赢得SuperCLUE基准测试被批评者视为“追逐徽章，而不是突破”。DeepDiver是一个引人入胜的概念，但如果没有公开测试或访问WebPuzzle数据集的权限，其真正的能力很难通过华为自己的演示来验证。对于一个习惯于开放基准和可重复研究的全球社区来说，这些说法仍然停留在“炒作”的范围内。在整个 Pangu 套件中，情况类似。“舞台上光滑的幻灯片”需要“真实的案例研究和指标”的支持。这与苹果公司的“表面光鲜，底层封闭”的策略类似。这是一种可以构建出色的产品生态系统的策略，但并非在像AI这样的协作领域中建立科学和技术领导地位的通常方式。

3.3 未来展望

华为正处于一个引人入胜的十字路口。它已经实现了其他公司无法比拟的垂直AI集成水平。Ascend 和 Pangu 生态系统是一项巨大的技术成就，源于必要性，并以精确的方式执行。它证明了NVIDIA主导的单一文化之外，一种可行的高性能替代方案是可能的。为了弥合其强大能力与应得的AI创新前沿地位之间的差距，华为必须做的不仅仅是构建卓越的引擎。它必须拥抱能够促进信任和激发协作的透明度。分享代码、发布可验证的基准测试，并允许全球社区真正参与其模型是必要的步骤。为了真正领先，华为必须打开引擎盖，并向世界证明，在真实、透明的审查下，性能最终与名称相符。

华为Ascend与盘古的AI雄心：技术堡垒与开放挑战