OpenAI will mit Broadcom eigene KI-Systeme entwickeln

Broadcom will bis 2029 Racks mit KI-Beschleunigern und Netzwerksystemen bereitstellen

BIldquelle: OpenAI

Nach NVIDIA und AMD will auch Broadcom an der Infrastruktur für OpenAIs Vision einer künstlichen Superintelligenz mitbauen. Das Besondere an dieser Partnerschaft: OpenAI selbst will die Beschleuniger und Systeme entwerfen, die Broadcom bauen soll. Mit der Entwicklung eigener Chips und Systeme möchte OpenAI die Erkenntnisse aus der Entwicklung von bahnbrechenden Modellen und Produkten direkt in die Hardware einfließen lassen. Die Hoffnung ist, auf diese Weise neue Leistungs- und Intelligenzstufen zu erschließen. Sam Altman gibt in einem OpenAI-Podcast zu: “Wir arbeiten seit etwa 18 Monaten zusammen an der Entwicklung eines neuen kundenspezifischen Chips. Vor kurzem haben wir auch begonnen, an einem kompletten kundenspezifischen System zu arbeiten.”

„Unsere Zusammenarbeit mit Broadcom wird bahnbrechende Fortschritte in der KI ermöglichen und das volle Potenzial dieser Technologie der Realität näherbringen“, ist Greg Brockman, Mitbegründer und Präsident von OpenAI, überzeugt. „Durch die Entwicklung unseres eigenen Chips können wir das, was wir bei der Erstellung von bahnbrechenden Modellen und Produkten gelernt haben, direkt in die Hardware einfließen lassen und so neue Ebenen der Leistungsfähigkeit und Intelligenz erschließen.“

“Diese Dinge sind so komplex geworden, dass man das ganze System braucht.”

Sam Altman, OpenAI-Gründer und KI-Pionier

OpenAI ist auf über 800 Millionen aktive Nutzer pro Woche angewachsen. “Als uns klar wurde, wie viel Kapazität, also Inferenzkapazität, die Welt benötigen würde, begannen wir darüber nachzudenken, ob wir einen Chip entwickeln könnten, der genau für diese sehr spezifische Art von Workload gedacht ist”, erklärt der KI-Visionär Altman.

Schnelle KI-Antwortzeiten (Inferenz) sind nicht nur eine Nice-to-have-Leistungsmetrik. Sie wirken sich direkt auf Benutzerzufriedenheit, Betriebskosten, Skalierbarkeit, Energieverbrauch und die Fähigkeit zur Einführung innovativer Echtzeitprodukte aus. Durch den Einsatz einer speziell entwickelten Inferenz-Engine wird Geschwindigkeit zum Wettbewerbsvorteil.

Während für das Training eine hohe Rechenleistung und große Mengen aufbereiteter Daten benötigt werden, reicht für Schlussfolgerungen auch ein einzelner CPU-Kern oder eine kleinere GPU mit geringem Stromverbrauch. Spezielle Inferenz-Chips sind auch eher mit einer CPU vergleichbar. Der Unterschied ist die Art und Weise, wie herkömmliche CPU oder GPU die Daten verarbeiten. Die daraus resultierenden Latenzen sind um ein Zigfaches höher als bei speziellen Inferenz-Chips.

Wissenswert an dieser Stelle ist, dass es genauso einen Chip bereits gibt. Das kalifornische Startup Groq hat mit seiner LPU (Language Processing Unit) bereits einen sogenannten Tensorstream-Prozessor (TSP) entwickelt.

Image

Description

Architektur einer Groq-LPU (Bildquelle: Groq)

10 GW für Inference?

Umso bemerkenswerter in diesem Zusammenhang ist die Ankündigung von Broadcom-CEO Hock Tan, “gemeinsam 10 Gigawatt an Beschleunigern und Netzwerksystemen der nächsten Generation zu entwickeln und einzusetzen.”

10 Gigawatt scheint das neue Lieblingswort der Szene zu sein. Auch Sam Altman spricht davon, “10 Gigawatt dieser Racks mit diesen Systemen und unserem Chip einzusetzen.”

Weder brauchen Inferenz-Chips so viel Energie wie eine vergleichbare GPU noch braucht man so viele LPUs für Schlussfolgerungen wie GPUs für das Training. Im Vergleich zu NVIDIAs Rubin-Systemen bedeutete das noch größere Rechenzentren und noch mehr Systeme, um mit LPU auf eine Gesamtleistung von 10 GW zu kommen.

Hört man Sam Altman zu, könnte man allerdings glauben, dass genau das sein Plan ist: “Wenn man sich den aktuellen Ausbau der KI-Infrastruktur ansieht, könnte man sagen, dass es sich um das größte gemeinsame Industrieprojekt in der Geschichte der Menschheit handelt.”

Broadcom-Präsident Charlie Kawwas setzt noch einen drauf: ”Wir definieren das Betriebssystem der nächsten Generation für unsere Zivilisation.”

Die Realität ist davon noch weiter entfernt, als es den Beiden wahrscheinlich lieb ist. Sam Altman gibt im Podcast zu: “Dieses Jahr werden wir mit etwas mehr als 2 Gigawatt abschließen.”

Mit den jüngsten Partnerschaften will er es fast auf 30 schaffen. “Wenn wir heute 30 Gigawatt mit der heutigen Modellqualität hätten, würde man das meiner Meinung nach immer noch relativ schnell auslasten, was die Aktivitäten der Menschen angeht, insbesondere angesichts der geringeren Kosten, die wir damit erzielen können. … Nehmen wir an, wir können GPT-6 soweit bringen, dass es sich anfühlt, als hätte es 30 IQ-Punkte mehr als GPT-5, also etwas Großes.”

GPT-5 erreicht regulär je nach Test zwischen 94 und 120 IQ-Punkte. GPT-6 wäre dann ungefähr so klug wie Gates, Musk oder Zuckerberg. Ob es genauso intelligent wäre wie die drei Tech-Bros, bleibt fraglich. Zu einer echten künstlichen Superintelligenz braucht es mehr. Da spielt die Architektur rekurrenter neuronaler Netze (RNN) – genauer gesagt das Langzeitgedächtnis (Long Short-Term Memory, LSTM) – eine wesentlich größere Rolle als schiere Rechenleistung. Studien zu LSTM auf CPUs, GPUs, FPGAs und anderen Geräten zeigten in der Vergangenheit, dass in diesem Bereich eine Beschleunigung durch Hardware kaum möglich ist. Inwieweit LPUs helfen können, ist noch wenig bis nicht erforscht.

Über Sam Altmans IQ ist übrigens auch nichts bekannt.