切换新版>>

北京论坛 >  昇腾384超节点

发表于 2025-06-04 14:46    IP属地:未知

查看 2.3W | 回复 1
昇腾384超节点
深度解读“昇腾384超节点”:性能对标英伟达NVL72,通信带宽提升15倍
智东西​
5 人赞同了该***

智东西
编译 | 王涵
编辑 | 漠影
智东西5月27日消息,据华为官方信息,近日在华为昇腾AI开发者峰会上,华为昇腾计算业务总裁张迪煊介绍了基于昇腾人工智能(AI)处理器的高性能计算架构“昇腾384超节点
”,该架构号称可媲美美国半导体公司英伟达NVL72系统的架构,能有效缓解数据中心瓶颈问题。
“随着并行处理规模扩大,传统服务器架构的跨机带宽已成为训练关键瓶颈。”张迪煊在会上说。他提到,满足未来训练需求需要昇腾384超节点等创新计算架构。
一、摒弃冯诺依曼架构,昇腾384超节点架构可连接数万颗处理器华为的超节点架构构成其此前公布的CloudMatrix 384
系统基础,该集群包含384颗昇腾AI处理器,由12个计算柜和4个总线柜组成,最大算力可达300 PFLOPS,48TB高速内存,(注:1 petaflop=每秒1千万亿次运算)。
基于超节点架构,华为打造了业界最大规模的昇腾384卡超节点,并已在安徽、内蒙古和贵州的数据中心部署。
华为称,多个昇腾384超节点可以组成十万卡级的Atlas 900 SuperCluster
超节点集群,以支持更大规模的模型训练需求,帮助更多行业更快实现智能化和高效化。
华为补充,超节点打破了以CPU为中心的冯诺依曼架构,创新提出了对等计算架构。在超节点范围内,用高速总线互联替代传统以太,通信带宽提升了15倍,单跳通信时延也从2微秒做到200纳秒,降低了10倍。
华为昇腾计算业务总裁张迪轩在昇腾AI开发者峰会上演讲
二、最适合MoE模型,单卡性能达到600至750TPS
目前,Mixture-of-Experts(MoE)模型凭借其模型效果成为了主要模型结构,然而MoE却涉及最复杂的混合并行策略。其中,TP、SP、EP的通信量高达百GB的级别,且通常无法掩盖。随着并行规模的增长,传统服务器的跨机带宽成为训练核心瓶颈,需要通过计算架构的创新,满足未来训练的需求。
据华为介绍,昇腾384超节点架构最适合MoE AI模型。华为公布的基准测试结果显示,超节点384在处理Meta的LLama 3等密集型AI模型时,单卡性能达到132 tokens/秒(TPS),是传统集群的2.5倍。对于Qwen以及DeepSeek等通信密集型多模态及MoE模型,华为架构的单卡性能达到600至750 TPS,可以达到3倍以上的提升。
虽然华为尚未确认其新计算架构下部署的是哪款昇腾芯片变体,但SemiAnalysis的一份报告称CloudMatrix 384使用了最新的昇腾910C AI处理器,该处理器依靠规模优势来抵消单个芯片性能较弱的不足。
结语:突破西方封锁,华为或将重塑AI训练底层逻辑除了昇腾384超节点的技术分享外,华为在其昇腾AI开发者峰会上,还分享了CATLASS算子模板库、MindIE Motor推理服务加速库、持续升级分层开放CANN的能力等等内容。这一系列举措旨在为开发者提供更便捷的开发环境,提升模型训练与推理效率,从而推动产业生态共建。
“华为在芯片上落后一代,但其扩展解决方案可以说比英伟达和超微半导体(AMD)的当前市场产品领先一代。”SemiAnalysis报告称。
随着全球AI算力竞赛进入“白热化”,华为的创新不仅为数据中心瓶颈问题提供了中国方案,更可能重塑下一代AI模型训练的底层逻辑,在算力规模与能效比之间找到新的平衡点,推动AI技术从实验室走向更广泛的产业应用。

[每日热点]:【酷车实拍】家里又添新车了 提哪吒L...

回复本楼 | 评分 | 举报

发表于 2025-06-04 16:48    IP属地:未知

不小心正好全部看懂了

[每日热点]:【旅行游记】人说山西好风光之黄河篇...

回复本楼 | 评分 | 举报
热门信息