根据 OpenAI 于 5 月 6 日的公告,该公司与 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 合作,推出 Multipath Reliable Connection(MRC),一种用于大规模 AI 训练集群 GPU 互连的开放网络协议。该协议将单次数据传输拆分到数百条路径上,以降低核心拥堵,并实现链路和交换故障的微秒级绕行。

OpenAI 已在其 Stargate 超级计算机(由 OCI 构建)以及微软的 Fairwater 超级计算机中部署了 MRC,使得只需两层交换机即可连接超过 100,000 个 GPU,同时降低电力消耗和硬件需求。MRC 规范已通过 Open Compute Project 向业界发布。