在全球AI领域,华为正以其独特的全栈AI战略,构建一个平行于OpenAI、Google等巨头的AI宇宙。其核心在于 Ascend (昇腾) AI硬件和软件生态系统,以及基于此构建的 Pangu (盘古) 系列大模型。本文将深入探讨华为在 Ascend 和 Pangu 上的战略布局,分析其技术优势与挑战,并探讨其在AI领域中的角色与未来走向。
一、Ascend:自主可控的AI基石
面对地缘政治压力和日益增长的AI算力需求,华为选择自建“赛道”。Ascend 并非简单的GPU改造,而是从底层芯片到上层软件的全栈式AI基础设施。
1.1 硬件:定制化的NPU架构
Ascend 的核心是 NPU(Neural Processing Unit),例如 Ascend 910B。它采用DaVinci架构,其中的Cube Units专为矩阵乘法(MatMul)优化,这是深度学习的基石。为了实现最佳效率,华为建议开发者以256的倍数调整模型张量,确保工作负载在核心计算单元之间均匀分布。每个 NPU 配备64GB的高带宽内存(HBM),足以容纳 Pangu 等大型模型的庞大参数集。服务器内部,NPU 通过华为Cache Coherency System (HCCS)进行全网格拓扑通信。服务器之间,200 Gbps RoCE (RDMA over Converged Ethernet)链路最小化延迟。这种定制化的通信结构对于在数千个节点上训练模型至关重要。
案例:矩阵乘法优化
深度学习模型的核心在于矩阵乘法。传统的GPU虽然可以进行矩阵乘法,但并非专门为此设计,效率较低。Ascend 的Cube Units通过硬件级别的优化,极大地提高了矩阵乘法的效率。例如,在训练 Pangu Ultra MoE时,这种优化能够显著降低训练时间。
1.2 软件:全栈式开发环境
硬件是基础,软件是灵魂。华为通过全面的工具套件实现“One Platform”战略,创建一个有凝聚力的开发环境。MindSpore是全场景AI计算框架,类似于TensorFlow或PyTorch,提供基础编程层。MindSpeed和MindX分别是加速训练和应用使能的库。此外,还有MindStudio (一体化工具包)、MindCluster (集群管理)、MindIE (推理引擎)和CCAE (集群自治引擎)。
案例:MindSpore框架的应用
MindSpore框架不仅仅是一个编程工具,更是一个生态系统。它支持多种编程范式,包括静态图和动态图,方便开发者灵活地构建和调试模型。华为还积极推广MindSpore,鼓励开发者基于该框架进行创新。
1.3 生态系统:国家级的战略资产
华为的“Dual-Drive”战略旨在培育技术生态系统(与大学和研究机构合作)和商业生态系统(与开发者和合作伙伴合作)。目前,Ascend 生态系统拥有超过30万开发者,并与100多所大学合作。这不仅仅是一个项目,更是一个国家级的战略资产。
数据:开发者数量与合作院校数量
超过30万的开发者和100多所大学的参与,体现了华为 Ascend 生态系统的活力和潜力。这些数据不仅是数字,更是华为在AI领域长期投入和战略布局的体现。
二、Pangu:皇冠上的明珠
基于 Ascend 的硬件和软件基础,华为构建了 Pangu 模型家族,涵盖NLP、计算机视觉、科学计算等领域。HDC 2025展示了针对 Ascend 架构进行优化的一系列模型。
2.1 Pangu Ultra MoE:驯服7180亿参数巨兽
Pangu Ultra MoE是稀疏混合专家(MoE)模型,拥有惊人的7180亿参数。训练如此庞大的模型是一项极端的工程挑战。华为的解决方案展示了其全栈控制的优势。
案例:模型训练优化
标准通信协议(如All-to-All)效率低下。华为实施了分层EP All-to-All策略,将节点内的高带宽通信与节点间的低带宽通信分离,并与计算重叠。这实现了95%的重叠率,大大减少了空闲时间。为了将模型放入 NPU 的内存中,华为使用细粒度重计算(仅重新计算计算图中小的、必要的片段,而不是整个层)和张量交换(智能地将较少使用的激活卸载到主机内存)。MoE模型可能受到“专家不平衡”的影响,即某些专家被过度使用,而其他专家则处于空闲状态。华为开发了一个动态系统,可以预测实时负载,并自适应地将专家放置在 NPU 上,以确保均匀利用。在6000个 Ascend NPU 上训练时,Pangu Ultra MoE实现了30.0%的模型Flops利用率(MFU),这是一个非常可观的数字,使其性能与在主流硬件上训练的模型处于同一水平,证明 Ascend 系统完全能够处理最先进的训练。
2.2 Pangu Embedded:边缘端的“快慢思考”
Pangu Embedded是一个70亿参数的模型,专为高效推理而设计。它最引人注目的特点是双系统“快慢思考”能力。系统1(快思考)为简单查询提供快速、低延迟的响应。系统2(慢思考)进行更深入、更复杂的推理,生成思维链。用户可以手动选择模式,或者模型可以根据其对查询复杂性的评估自主选择。这是通过一个两阶段训练框架实现的,该框架包括迭代蒸馏和由多源自适应奖励系统(MARS)指导的强化学习。在GPQA和LiveCodeBench等基准测试中,70亿参数的 Pangu Embedded优于Qwen3-8B和GLM4-9B等同类开放模型。
案例:推理效率提升
通过“快慢思考”机制,Pangu Embedded能够在保证准确率的同时,显著降低推理延迟。这对于边缘计算场景至关重要,例如智能家居、自动驾驶等。
2.3 DeepDiver:面向复杂真实网络的AI Agent
华为对Agentic AI趋势的回答是DeepDiver,这是一个旨在掌握开放互联网信息检索的框架。其核心创新在于解决真实网络的“混乱性”,这与用于训练许多模型的干净、结构化的维基百科数据相去甚远。为此,华为推出了WebPuzzle,这是一个旨在训练模型处理真实搜索结果中存在的冲突、噪声和不可靠信息的新颖数据集。DeepDiver训练LLM动态调整其搜索频率和深度。如果其初始答案置信度较低或问题复杂,它会本能地执行更多搜索,收集更多证据并交叉验证事实。在DeepDiver的支持下,70亿参数的 Pangu -Reasoner ( Pangu Embedded)在真实网络任务上的表现与6710亿参数的DeepSeek-R1相当。这表明,智能策略有时可以替代蛮力规模。
案例:真实网络信息检索
DeepDiver的WebPuzzle数据集模拟了真实网络环境,包含了大量噪声和冲突信息。这使得 Pangu -Reasoner能够在真实场景中进行更准确的信息检索,为用户提供更有价值的答案。
2.4 其他Pangu模型
Pangu 5.5套件甚至更广泛,包括一个300亿参数的CV模型(业内最大)、一个使用新型“三元组transformer”的预测模型,以及一个能够生成逼真的驾驶数据以训练自动驾驶汽车的世界模型,进一步强调了华为的雄心。
三、结论:技术实力与开放挑战
华为已经成功构建了一个强大的、自给自足的AI生态系统,并证明了其有能力在其上训练和部署最先进的模型。
3.1 华为的成就与挑战
华为在AI领域取得了显著的成就,尤其是在全栈式AI基础设施的构建和大型模型的训练方面。然而,华为的声誉是顶级的全球技术巨头,但其在AI领域的实际影响力似乎与这种声誉并不完全匹配。人们感觉到的更多是华为在一个封闭的环境中完善现有模式,而不是开创新的领域。
3.2 开放合作的重要性
MoE架构、快慢思考、Agentic搜索等核心思想并非AI领域的新概念。华为的成就在于在其专有堆栈上的出色实施和细致优化,但并非人们期望的具有突破性的概念飞跃。例如,Pangu Pro MoE赢得SuperCLUE基准测试被批评者视为“追逐徽章,而不是突破”。DeepDiver是一个引人入胜的概念,但如果没有公开测试或访问WebPuzzle数据集的权限,其真正的能力很难通过华为自己的演示来验证。对于一个习惯于开放基准和可重复研究的全球社区来说,这些说法仍然停留在“炒作”的范围内。在整个 Pangu 套件中,情况类似。“舞台上光滑的幻灯片”需要“真实的案例研究和指标”的支持。这与苹果公司的“表面光鲜,底层封闭”的策略类似。这是一种可以构建出色的产品生态系统的策略,但并非在像AI这样的协作领域中建立科学和技术领导地位的通常方式。
3.3 未来展望
华为正处于一个引人入胜的十字路口。它已经实现了其他公司无法比拟的垂直AI集成水平。Ascend 和 Pangu 生态系统是一项巨大的技术成就,源于必要性,并以精确的方式执行。它证明了NVIDIA主导的单一文化之外,一种可行的高性能替代方案是可能的。为了弥合其强大能力与应得的AI创新前沿地位之间的差距,华为必须做的不仅仅是构建卓越的引擎。它必须拥抱能够促进信任和激发协作的透明度。分享代码、发布可验证的基准测试,并允许全球社区真正参与其模型是必要的步骤。为了真正领先,华为必须打开引擎盖,并向世界证明,在真实、透明的审查下,性能最终与名称相符。