514920049

国产首次万卡超集群真机即将亮相,AI算力基础设施迎来里程碑

中国智算产业即将迎来一个关键节点,国产万卡级超集群的真机首次亮相,标志着我们在规模化算力供给上迈出坚实一步。

一场关于人工智能算力基础设施的盛会即将揭幕。光合组织2025人工智能创新大会(HAIC 2025)计划于12月17日至19日举行,届时有望首次公开展示国产大规模智算超集群系统的真机。

这套系统依托中科曙光的scaleX640超节点技术设计,其规模可达万卡级别。这将是国产智算超集群系统的首次万卡真机亮相,对于正全力冲刺的国产AI产业而言,无疑是一次重要的能力展示。


 产业背景:万卡集群成AI竞赛基础门槛

当前,人工智能竞争已演变为算力资源的比拼。从国际视野看,万卡级别的计算集群已成为训练前沿大模型的标准配置

科技巨头们早已在此领域大力投入。例如,Meta曾部署两个均集成24,576个英伟达H100 GPU的AI训练集群,而马斯克麾下的xAI更是使用了高达10万张H100 GPU来训练新版Grok模型。

回望国内,华为在2025年9月发布了昇腾AI芯片的完整发展路线图,并公布了Atlas 950 SuperCluster和Atlas 960 SuperCluster等超节点集群计划,其算力规模分别瞄准了50万卡和百万卡级别

产业演进正从硬件的简单聚合,转向软硬件一体化的全栈协同设计。超节点凭借超高带宽互联、内存统一编址等技术特征,成为支撑复杂计算任务的关键底座。

技术破局:用系统级创新弥补单点差距

在芯片制造工艺仍面临外部限制的背景下,中国科技企业选择了一条“系统级创新” 的非对称突围路径。

其核心思路是,不单纯追求单颗芯片的极限性能,而是通过先进的互联技术和集群架构,将数量众多的国产芯片高效整合,从而实现算力规模的线性提升

以华为的“灵衢互联协议”为例,该技术旨在实现“万卡超节点,一台计算机”的效果,通过全栈技术创新,在保证低时延、高带宽的同时,将光互联的可靠性提升了100倍。

这种“拼团式突围”的背后,是国产半导体产业链的集体发力。它通过系统架构和集群规模,有效地弥补了单芯片性能上的差距,为国产AI应用提供了宝贵的算力支撑。

多元布局:国产算力阵营全面发力

在算力国产化的道路上,已形成多路径并进的繁荣生态

除了即将展示万卡集群的中科曙光和发布长远规划的华为,多家厂商也在积极布局。例如,中科曙光此前已发布了国内首个基于AI计算开放架构设计的曙光AI超集群系统。

沐曦股份则创新性地推出了多种超节点形态,包括通过光模块技术降低延迟的曦云C500X光互连超节点。

浪潮信息也发布了面向万亿参数大模型的超节点AI服务器“元脑SD200”,其通过创新技术可实现显存统一地址空间扩增8倍。

此外,海光公司宣布开放其CPU互联总线协议(HSL),旨在降低产业链上下游伙伴的设计门槛,释放国产算力的产业协同效能。

挑战与未来:软件生态与能耗管理是关键

尽管硬件集群规模迅速扩大,但国产算力发展仍面临软件生态和能耗管理等核心挑战。

构建万卡集群并非简单的硬件堆砌。线性加速比、跨节点通信效率、海量数据处理的稳定性等都是需要极致优化的系统工程难题。同时,万级处理器规模下,故障常态化对系统的可靠性提出了极高要求。

软件生态的完善尤为迫切。业界共识是,只有当硬件具备繁荣的软件应用生态时,其算力潜能才能被充分释放。目前,包括华为在内的厂商正积极开源其工具链,如华为已开源CANN编译器及虚拟指令集接口,并计划开源Mind系列应用使能套件等,以期构建与英伟达CUDA生态竞争的开放联盟。

展望未来,随着产业重心从模型训练向推理应用转变,以及全球“主权AI”需求的崛起,高效、可靠的国产算力基础设施将扮演愈发重要的角色。


对于国内众多大模型研发企业而言,稳定、可控的国产万卡集群意味着其训练任务将获得更可靠的保障,减少对单一技术路线的依赖。

随着12月HAIC 2025的临近,业界期待中科曙光此次万卡真机展示能为国产AI算力产业链带来更多信心,推动中国智能计算生态走向成熟。