中国最大国产AI算力池上线:对标马斯克与OpenAI,国产万卡集群开启新纪元
type
status
date
slug
summary
tags
category
icon
password
网址
引言:全球AI算力军备赛进入“万卡时代”
在人工智能(AI)飞速发展的今天,算力已成为衡量一个国家科技竞争力的硬指标。当埃隆·马斯克宣布其xAI的“Colossus 2”超级计算机投入运行,以及OpenAI斥巨资联手Cerebras打造全球最大推理平台时,全球AI算力的“军备竞赛”已进入白热化阶段。
就在此时,中国算力领域也迎来了里程碑式的突破。由中科曙光提供的3套scaleX万卡超集群系统,在国家超算互联网核心节点正式上线试运行。这不仅是国内首次在国家级枢纽节点同步部署3套万卡级集群,更意味着中国首个超3万卡规模的国产AI算力池正式进入实战阶段。这一举动标志着国产AI基础设施正在从“技术展示”转向“规模化运营”,为国产大模型(LLM)的训练与推理提供了坚实的底座。
算力军备竞赛升级:从单点突破到体系化协同
马斯克的Colossus集群以吉瓦级功率震撼业界,而OpenAI则通过晶圆级系统追求极致的推理速度。面对海外科技巨头的“堆算力”策略,中国的应对之道是“体系化工程”。
此次落地的3套万卡集群,并非简单的硬件堆砌。不到两个月的时间,中科曙光完成了从HAIC 2025大会上的真机展示到国家级节点规模落地的跨越。这种高效率的工程化能力,证明了国产万卡集群已经具备了可复制、可规模交付的商业化能力。作为国家超算互联网的“动力心脏”,这一算力池通过统一调度,服务于万亿参数大模型训练、高通量推理以及 AI for Science 等前沿场景,真正实现了算力资源的集约化与高效化。
揭秘scaleX技术底座:万卡集群如何高效“跑起来”
规模一旦突破万卡门槛,系统面临的挑战呈指数级增长。scaleX万卡超集群通过三大核心技术,解决了算力释放、稳定性和调度效率的难题。
- scaleFabric高速互联网络:在大模型训练中,节点间的通信效率决定了整体性能。scaleX采用了自主研发的400G类InfiniBand原生RDMA网卡,端到端延迟低于1微秒。相比传统方案,通信性能提升2倍,成本却下降了30%,为未来向十万卡甚至百万卡平滑扩展奠定了基础。
- 极速散热与极致能效:算力密度的提升带来了严峻的散热挑战。该集群采用了全球首创的高密度单机柜设计,结合浸没相变液冷技术,将单机柜算力密度提升了20倍,而整体PUE(电能利用效率)值低至1.04,达到了全球顶尖的节能水平。
- 数字孪生与智能调度:为了管理万级节点,系统引入了物理集群数字孪生技术。智能调度引擎每秒可处理万级作业,长期可用性高达99.99%。这种精细化管理确保了算力资源能像水电一样,被100多万用户便捷地调用。
开放架构:打破生态垄断,重塑AI产业格局
国产算力发展的最大障碍之一是软件生态的兼容性。中科曙光协同20多家产业链企业推动的“AI计算开放架构”,是此次万卡集群的一大亮点。
该架构强调打破单一厂商的生态绑定,支持多品牌AI加速卡混合部署,并全面兼容CUDA等主流软件生态。目前,该算力池已完成400余个主流大模型和世界模型的适配优化。对于开发者而言,这意味着可以低成本地在国产平台上迁移模型;对于产业而言,这有助于构建一个自主可控、多元协同的 AGI 发展环境。
结论:从“拼建设”到“拼运营”的下半场
随着中国最大国产AI算力池的上线,AI基础设施的竞争重点正在发生转移。拥有万卡集群只是门槛,如何实现稳定运营、高效调度并真正支撑起万亿级参数大模型的落地,才是下半场的胜负手。
国家超算互联网通过连接30多家算力中心、服务超100万用户,正在打造一个覆盖全国的算力网络。这不仅是技术的胜利,更是工程化和运营能力的集中释放。在全球 人工智能 飞速演进的背景下,国产算力正通过一体化调度与开放生态,向着“以国产算力服务全球用户”的目标迈进。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)