在AI算力需求持续攀升的背景下,国内智算网络领域迎来里程碑式突破。中科曙光近日宣布,其自主研发的400G无损高速网络产品scaleFabric正式投入商用,标志着我国在高端RDMA(远程直接内存访问)技术领域实现从核心IP到系统架构的全面自主可控。该产品已通过国家超算互联网郑州核心节点万卡级集群验证,为国产智算基础设施注入关键动能。
当前,全球智算集群正加速向万卡级规模演进,网络通信效率成为制约算力释放的核心瓶颈。研究显示,在千亿参数级大模型训练中,跨节点通信耗时占比高达50%,传统TCP/IP网络已难以满足超低延迟需求。作为全球主流方案,InfiniBand凭借零丢包、微秒级时延特性占据60%超算市场份额,但其产业链长期被海外企业垄断,从112G SerDes IP到交换芯片等关键环节均存在技术壁垒。
中国工程院院士邬贺铨在视频致辞中强调:"高速网络是算力系统的神经中枢,其自主化程度直接决定国家算力基础设施的安全边界。"面对技术封锁与产业升级双重压力,scaleFabric的诞生恰逢其时。该系统采用全栈自研架构,涵盖从底层硬件到上层管理软件的全链条技术,其中400G网卡实现0.9微秒端到端时延,交换机支持双向64Tbps交换容量,关键指标达到国际顶尖水平。
技术突破背后是多项创新机制的支撑。scaleFabric独创的信用流控算法使链路故障恢复时间缩短至1毫秒内,较传统方案提升10倍;通过动态QP(队列对)资源分配技术,单网卡支持QP数较英伟达NDR翻倍,单子网互连规模扩展至11.4万卡。在郑州超算节点部署中,该系统成功支撑3万卡集群稳定运行超10个月,网络总成本降低30%,验证了其在超大规模场景下的可靠性。
中科曙光高级副总裁李斌透露,目前已有超过20家头部AI企业参与scaleFabric生态共建,涵盖芯片设计、模型训练、应用开发等全产业链环节。随着"人工智能+"战略深入推进,国产智算网络正从技术突破迈向产业生态构建阶段。此次突破不仅填补了国内400G无损网络空白,更通过"算-存-网"一体化方案,为国产AI大模型训练提供了系统级支撑平台。


