广州南投企业管理有限公司-国产首次万卡超集群真机即将亮相，AI算力基础设施迎来里程碑

中国智算产业即将迎来一个关键节点，国产万卡级超集群的真机首次亮相，标志着我们在规模化算力供给上迈出坚实一步。

一场关于人工智能算力基础设施的盛会即将揭幕。光合组织2025人工智能创新大会（HAIC 2025）计划于12月17日至19日举行，届时有望首次公开展示国产大规模智算超集群系统的真机。

这套系统依托中科曙光的scaleX640超节点技术设计，其规模可达万卡级别。这将是国产智算超集群系统的首次万卡真机亮相，对于正全力冲刺的国产AI产业而言，无疑是一次重要的能力展示。

产业背景：万卡集群成AI竞赛基础门槛

当前，人工智能竞争已演变为算力资源的比拼。从国际视野看，万卡级别的计算集群已成为训练前沿大模型的标准配置。

科技巨头们早已在此领域大力投入。例如，Meta曾部署两个均集成24，576个英伟达H100 GPU的AI训练集群，而马斯克麾下的xAI更是使用了高达10万张H100 GPU来训练新版Grok模型。

回望国内，华为在2025年9月发布了昇腾AI芯片的完整发展路线图，并公布了Atlas 950 SuperCluster和Atlas 960 SuperCluster等超节点集群计划，其算力规模分别瞄准了50万卡和百万卡级别。

产业演进正从硬件的简单聚合，转向软硬件一体化的全栈协同设计。超节点凭借超高带宽互联、内存统一编址等技术特征，成为支撑复杂计算任务的关键底座。

在芯片制造工艺仍面临外部限制的背景下，中国科技企业选择了一条“系统级创新” 的非对称突围路径。

其核心思路是，不单纯追求单颗芯片的极限性能，而是通过先进的互联技术和集群架构，将数量众多的国产芯片高效整合，从而实现算力规模的线性提升。

以华为的“灵衢互联协议”为例，该技术旨在实现“万卡超节点，一台计算机”的效果，通过全栈技术创新，在保证低时延、高带宽的同时，将光互联的可靠性提升了100倍。

这种“拼团式突围”的背后，是国产半导体产业链的集体发力。它通过系统架构和集群规模，有效地弥补了单芯片性能上的差距，为国产AI应用提供了宝贵的算力支撑。

在算力国产化的道路上，已形成多路径并进的繁荣生态。

除了即将展示万卡集群的中科曙光和发布长远规划的华为，多家厂商也在积极布局。例如，中科曙光此前已发布了国内首个基于AI计算开放架构设计的曙光AI超集群系统。

沐曦股份则创新性地推出了多种超节点形态，包括通过光模块技术降低延迟的曦云C500X光互连超节点。

浪潮信息也发布了面向万亿参数大模型的超节点AI服务器“元脑SD200”，其通过创新技术可实现显存统一地址空间扩增8倍。

此外，海光公司宣布开放其CPU互联总线协议（HSL），旨在降低产业链上下游伙伴的设计门槛，释放国产算力的产业协同效能。

尽管硬件集群规模迅速扩大，但国产算力发展仍面临软件生态和能耗管理等核心挑战。

构建万卡集群并非简单的硬件堆砌。线性加速比、跨节点通信效率、海量数据处理的稳定性等都是需要极致优化的系统工程难题。同时，万级处理器规模下，故障常态化对系统的可靠性提出了极高要求。

软件生态的完善尤为迫切。业界共识是，只有当硬件具备繁荣的软件应用生态时，其算力潜能才能被充分释放。目前，包括华为在内的厂商正积极开源其工具链，如华为已开源CANN编译器及虚拟指令集接口，并计划开源Mind系列应用使能套件等，以期构建与英伟达CUDA生态竞争的开放联盟。

展望未来，随着产业重心从模型训练向推理应用转变，以及全球“主权AI”需求的崛起，高效、可靠的国产算力基础设施将扮演愈发重要的角色。

对于国内众多大模型研发企业而言，稳定、可控的国产万卡集群意味着其训练任务将获得更可靠的保障，减少对单一技术路线的依赖。

随着12月HAIC 2025的临近，业界期待中科曙光此次万卡真机展示能为国产AI算力产业链带来更多信心，推动中国智能计算生态走向成熟。