2025年云栖大会上阿里云发布的高密度AI服务器,特别是提到了单柜支持128个或

2025年云栖大会上阿里云发布的高密度AI服务器,特别是提到了单柜支持128个或144个计算芯片的“磐久超节点服务器”。
这些服务器代表了当前AI算力基础设施的尖端水平,它们的核心突破点在于**“密度”、“互联带宽”和“能效比”**。
以下是基于搜索到的信息对这类服务器的详细介绍:
阿里云“磐久超节点”AI服务器介绍
阿里云在2025年云栖大会上发布的“磐久超节点”系列,特别是磐久128超节点AI服务器,是其AI基础设施升级的关键组成部分。这类高密度服务器旨在解决训练和推理超大模型时对算力、带宽和能效的极致需求。

  1. 核心指标:超高密度
    单柜支持芯片数量: 官方重点展示了单柜支持128个AI计算芯片的磐久128超节点服务器,并且提及了144个计算节点的更高密度方案。
    意义: 芯片密度是衡量AI集群效率的关键指标之一。更高的密度意味着在更小的物理空间内,实现了更强大的总算力(FLOPS),这直接降低了数据中心的占地面积和建设成本。
  2. 硬件创新:自研与开放架构
    为了支撑如此高密度的计算,仅靠堆叠芯片是不够的,还需要强大的协同技术:
    集成自研芯片: 磐久超节点集成了阿里自研的CIPU 2.0芯片(可能是指计算/互联处理单元)。自研芯片的优势在于可以与阿里云的软件栈和模型进行深度优化。
    高性能网络集成: 关键在于其集成的EIC/MOC高性能网卡。
    Scale-Up带宽: 实现了Pb/s级别(拍字节每秒)的Scale-Up带宽。这对于AI训练至关重要,因为它允许芯片之间(在同一集群内部)以极高速度交换数据,减少了模型在不同芯片间通信的延迟。
    极低延迟: 实现了百纳秒级(百ns)的极低延迟,这是保证大规模并行计算效率的关键。
  3. 性能提升与能效优化
    推理性能提升: 相较于传统的AI服务器架构,磐久超节点在同等AI算力下,推理性能可提升高达50%。这意味着在处理用户请求(如生成式AI的实时响应)时,速度更快、成本更低。
    能效比优化: 在支撑超大模型集群(如张北智算中心)时,这类架构被宣传为较传统数据中心能效比提升3倍。这通常是通过高密度集成和先进的散热技术实现的。
    液冷技术的支撑: 为了有效管理高密度芯片产生的巨大热量,这类服务器通常需要配合先进的液冷技术(如浸没式液冷方案),以维持稳定运行和优化PUE(电源使用效率)。
  4. 开放兼容性与生态协同
    开放架构: 磐久超节点强调开放兼容性,设计上可以支持多种主流的AI芯片(不仅仅是阿里自研的,也包括行业标准的GPU等),保证了系统的灵活性和生态的广度。
    全栈协同: 它作为阿里云**“AI基础设施升级”的关键一环,与HPN 8.0网络**(阿里云的高性能网络架构)和CPFS存储等技术矩阵协同工作,共同优化通义大模型的训练和推理流程。
    总结:
    “磐久超节点”服务器是云计算厂商“AI军备竞赛”中的核心硬件体现。它们通过极致的硬件密度、自研的高速互联技术和优秀的能效设计,为支撑数万亿参数级别的大模型训练和高并发的实时AI推理提供了最强悍的物理基础。