华为中科大联手突破英伟达垄断,昇腾A3跑大模型专家计算提速58%

快链头条 2026-05-25 17:33:18
阅读 1,383
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,在大规模 MoE 架构演进中,利用国产昇腾 (Ascend) 芯片训练大模型已成为构建自主可控 AI 算力的关键方向。然而,主流大模型框架多基于英伟达 CUDA 生态开发,直接移植至昇腾平台时易面临硬件队列调度不均、算力利用率低等挑战。中科大、华为与北大等联合推出编译调度框架 HyperParallel-MoE,针对昇腾 A3 独特的硬件队列进行瓦片级 (tile-level) 调控,旨在突破异构算力在并行调度上的能效瓶颈。

昇腾 A3 拥有两类核心,AIC 负责矩阵乘法,AIV 则处理向量计算与通信。但在传统的算子串行调度下,两类核心只能交替工作、轮流闲置。实测数据显示,在 256 节点集群跑 671B 的 DeepSeek 风格大模型时,AIC 利用率仅为 67%,且 39% 的专家路由通信延迟暴露在关键计算路径上。

HyperParallel-MoE 核心改动有三项。第一,设计 AIV 驱动的单边写原语,使数据瓦片到达即触发计算,无需等待整批到齐。第二,引入依赖感知瓦片任务生成,将通信与计算算子统一抽象。第三,以静态调度器预生成任务序列,在单个 kernel 内驱动两类核心并行,并利用高速 L2 缓存共享中间结果,减少回写与读取 HBM 慢速内存的延迟。

测试显示,在 64 节点平衡路由下,负责专家计算的核心模块(MoE-FFN)延迟缩短约 36%,相当于数据处理速度最高提升了 58%(即提速 1.49 至 1.58 倍)。在整机端到端运行中,单步训练速度也同步提升了 8% 至 9%。这说明,昇腾的实际能效不只取决于硬件规格,更在编译器与运行时能否把 AIC/AIV 核心高效调度起来。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。