Offener Netzwerkstandard für KI-Training

Im Open Compute Project veröffentlicht ein Konsortium um AMD und OpenAI mit MRC einen neuen – offenen – Netzwerkstandard für das Training von KI-Modellen

Bild: Getty Images / Credits: BlackJack3D

Multipath Reliable Connection (MRC) ist ein neues, offenes Netzwerkprotokoll, das von OpenAI in enger Zusammenarbeit mit AMD und weiteren Branchenführern (darunter Broadcom, Intel, Microsoft und NVIDIA) entwickelt wurde.

MRC soll die Zuverlässigkeit und Effizienz von Netzwerken in riesigen KI-Supercomputern mit über 100.000 GPUs verbessern und das Training von Modellen der nächsten Generation (Frontier-Modelle) beschleunigen.

Was ist MRC?

MRC soll helfen, Hotspots oder Totalausfälle zu vermeiden. Anstatt Daten über einen festen Pfad zu senden, verteilt ("sprüht”) MRC die Pakete einer einzelnen Übertragung über Hunderte paralleler Wege gleichzeitig (Packet Spraying). MRC nutzt SRv6-basiertes Source-Routing. Damit sollen Engpässe und Netzwerkausfälle innerhalb von Mikrosekunden erkannt und umgangen werden – ohne dass das gesamte Training stoppt. Auch eine einseitig hohe GPU-Auslastung oder Idle-Zeiten (Leerlauf) sollen sich vermeiden lassen, indem GPUs synchron mit Daten versorgt werden.

Zudem soll die Technologie den Aufbau von Netzwerken mit nur zwei Switch-Ebenen (statt drei oder vier) ermöglichen. Das kann dazu beitragen, die Hardwarekomplexität zu reduzieren, den Energieverbrauch zu senken und potenzielle Fehlerquellen zu minimieren.

Die Spezifikation wurde als Beitrag zum Open Compute Project (OCP) veröffentlicht, um einen herstellerübergreifenden Industriestandard zu schaffen. Als primärer Hardware-Partner unterstützt AMD das Protokoll nativ in neuen Netzwerkprodukten (AMD Pensando Vulcano 800 AI-NIC-Plattform, Pollara 400 Karten).

Abgrenzung zu MCP

Obwohl beide Abkürzungen "Protocol" im Namen tragen (bzw. darauf basieren), haben das MRC (Multipath Reliable Connection) von OpenAI/AMD und das MCP (Model Context Protocol) von Anthropic völlig unterschiedliche Aufgabenbereiche.

MRC wird in der Trainingsphase relevant – wenn Tausende von GPUs zusammenschaltet werden, um die gewaltigen Datenmengen zu bewältigen. MCP wird in der Nutzungsphase (Inferenz) relevant – wenn KI-Anwendungen direkt auf einen Datenpool, externe Anwendungen oder Datenbanken zugreifen müssen.

Vereinfacht ausgedrückt: MRC ist die Autobahn, auf der die KI trainiert wird, während MCP die fertige KI später mit Apps und Daten kommunizieren lässt.

Warum nicht Infiniband?

MRC positioniert sich als leistungsstarke, Ethernet-basierte Alternative zu proprietären Lösungen wie Infiniband und soll helfen, Vendor-Lock-ins zu vermeiden.

Image
Description
Ethernet gewinnt aufgrund seiner Skalierbarkeit, Offenheit, der großen Auswahl an Anbietern und der Vertrautheit im Einsatz zunehmend an Attraktivität. (Quelle: Dell'Oro)

Mit dem offenen OCP-Standard kann Standard-Ethernet-Hardware genutzt werden, was die Kosten für den Betrieb und Investitionen in Hardware wie Netzwerkkarten und Switches oder Kabel erheblich senkt.

Fazit

MRC könnte eine Lösung für die Gigascale-Ära sein, in der Ausfallsicherheit und Kosten wichtiger sind als eine Nanosekunde Latenz.