No menu items!

    如何克服卡脖子?华为「超级AI服务器」采升腾联动鲲鹏

    华为云官微近日通过一段视频展示了CloudMatrix 384超节点算力集群的威力,片中展示384颗升腾NPU(升腾910C)+192颗鲲鹏CPU全对等互联,形成一台「超级AI服务器」。图截取自华为云官微视频

    华为如何突破芯片设备限制长期为外界关注。华为云官微近日通过一段视频展示了CloudMatrix 384超节点算力集群的威力,片中展示384颗升腾NPU(升腾910C)+192颗鲲鹏CPU全对等互联,形成一台「超级AI服务器」。该方式也呼应任正非此前受访提及用叠加和集群等方法,让计算结果上与最先进水平是相当的。

    华为云在展示视频中指出,该产品称具备业界最大单卡推理吞吐量2300Tokens/s;业界最大集群算力16万卡,万卡线性度高达95%;云上确定性运维能40天长稳训练、10分钟快速恢复。华为云并表示,新一代升腾AI云服务,是最适合大模型应用的算力服务。

    在视频之外,华为此前曾发布一篇达60页的论文,提出了他们的下一代AI数据中心架构设计构想Huawei CloudMatrix,以及该构想的第一代产品化的实现CloudMatrix384。

    快科技报导,该论文简言之,便是华为CloudMatrix并非简单的「堆卡」,而是通过高带宽全对等互联(Peer-to-Peer)来设计,这也是CloudMatrix 384硬件架构的一大创新。

    传统的AI集群中,CPU相当于公司领导的角色,NPU等其他硬件更像是下属,数据传输的过程中就需要CPU审批和签字,效率就会大打折扣。但在CloudMatrix384中,CPU和NPU等硬件则像是一个扁平化管理的团队,它们之间的地位比较平等,直接通过UB网络通信直接对话,效率自然就上来了。

    华为创始人任正非近期接受大陆官媒人民日报专访时,提及在受到制裁下,大陆芯片的突破之道,他指出,芯片问题其实没必要担心,用叠加和集群等方法,计算结果上与最先进水平是相当的。任正非说,「我们单芯片还是落后美国一代,我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。」

    任正非认为,中国在中低端芯片上可以有机会,中国数十、上百家芯片公司都很努力。特别是化合物半导体机会更大。硅基芯片,用数学补物理、非摩尔补摩尔,利用集群计算的原理,可以达到满足现在的需求。

    热点

    发表评论