国产AI算力新突破：国家超算互联网核心节点三套万卡集群同步上线-宏观经济-数据世界

近日，国内AI算力领域迎来重大突破——由中科曙光研发的三套scaleX万卡超集群系统在国家超算互联网核心节点同步上线试运行。这一里程碑事件标志着我国成为全球首个实现超3万卡国产AI算力池规模化运营的国家，为万亿参数大模型训练、AI for Science等前沿领域提供了强大的算力支撑。

此次部署的三套万卡集群并非孤立存在，而是作为国家超算互联网的关键枢纽，构建起覆盖全国的国产AI算力资源池。该系统通过国家超算互联网平台实现统一调度，已成功连接30余家超算与智算中心，服务用户超百万，每日处理作业峰值达103万个，累计支撑运行1.96亿次作业。这种体系化布局使国产算力从"单点突破"迈向"网络协同"，为全球AI算力竞争提供了中国方案。

在技术实现层面，scaleX万卡超集群突破了三大核心挑战。针对万卡级集群的通信瓶颈，系统采用自主研发的scaleFabric高速互联网络，基于400G类InfiniBand原生RDMA技术，实现400Gb/s带宽和低于1微秒的端到端延迟，通信性能较传统方案提升2倍以上，同时降低30%网络成本。在供电散热方面，全球首创的高密度单机柜设计通过浸没相变液冷技术，将算力密度提升20倍，PUE值降至1.04，在同等机房条件下可部署更多算力资源。

系统运维层面，该集群引入物理集群数字孪生技术，实现故障定位、资源状态的可视化管理。智能调度引擎可管理万级节点、服务十万级用户，支持每秒万级作业调度，系统长期可用性达99.99%。这种"数字孪生+智能调度"的组合，使万卡集群真正融入国家算力体系，成为可复制、可规模交付的标准化产品。

值得注意的是，该系统采用中科曙光牵头推动的"AI计算开放架构"，支持多品牌AI加速卡混合部署，全面兼容CUDA等主流软件生态，已完成400余个主流大模型的适配优化。这种开放生态降低了开发者迁移成本，为国产算力产业链协同发展奠定基础。在应用场景上，系统已覆盖材料科学、生命科学等科研领域的大模型计算，同时为模型企业、互联网公司和行业用户提供普惠算力服务。

当前，全球AI算力竞争进入白热化阶段。海外方面，马斯克的xAI宣布"Colossus 2"吉瓦级训练集群投入运行，OpenAI则联合Cerebras部署750兆瓦级晶圆级系统。相比之下，中国通过国家超算互联网的体系化布局，正在形成独特的竞争优势。此次三套万卡集群的同步落地，不仅展现了国产算力的工程化能力，更标志着我国AI基础设施建设从"拼建设"转向"拼运营"的新阶段。