在数据中心高速网络领域,中科曙光近日宣布取得关键技术突破,正式推出国内首款全栈自研的400G无损高速网络解决方案——scaleFabric。该产品通过原生RDMA架构实现从底层硬件到上层软件的完全自主可控,标志着我国在高端网络设备领域打破海外技术垄断,为超大规模智算集群建设提供核心支撑。
面对AI大模型训练对算力网络的极端需求,传统TCP/IP协议已难以满足万卡级集群的通信要求。RDMA技术凭借零丢包、微秒级延迟的特性,成为全球顶级超算中心的首选方案。其中InfiniBand架构虽占据主导地位,但其核心产业链长期被海外企业把控,从112G SerDes IP到交换芯片等关键环节均存在技术壁垒。
scaleFabric系列产品的问世改变了这一格局。该方案采用全链路自主研发策略,涵盖从112G SerDes IP、交换芯片、网卡到交换机及管理软件的完整技术栈。其400G网卡基于PCIe5.0接口设计,端到端延迟突破0.9微秒大关;交换机产品更实现单端口800G带宽,整机交换容量达双向64Tbps,交换延迟控制在260纳秒以内,关键指标全面对标英伟达NDR系列。
在性能优化方面,该产品创新采用信用制无损流控机制,将链路故障恢复时间压缩至1毫秒以内。经实际验证,近万卡集群连续运行10个月未出现通信中断。与国际竞品相比,其交换机端口密度提升25%,网卡最大QP数支持翻倍,单子网互连规模可达传统IB架构的2.33倍,单集群最大支持11.4万卡部署,同时将网络建设成本降低30%。
目前该技术方案已在国家超算互联网郑州核心节点完成部署,成功支撑三套万卡级scaleX智算集群稳定运行,总算力规模突破3万张GPU卡。这一突破不仅验证了国产高速网络方案的可靠性,更为我国人工智能产业构建自主可控的算力基础设施提供了重要选项,有望推动国内智算中心建设进入全新发展阶段。
