Qualcomm stellt neue AI-Engine vor und steigt ins Rackgeschäft ein

Der Halbleiter-Spezialist will Inferenzleistung im Rack-Maßstab skalieren und macht NVIDIAs Gigawatt-Systemen Konkurrenz. Damit bleibt er aber nicht allein. Auch AMD will ein großes Kuchenstück ergattern.

Bild wird eingefügt...

Qualcomm AI Engine bestehend aus der Qualcomm Hexagon NPU, der Qualcomm Adreno GPU, der Qualcomm Kryo oder Qualcomm Oryon CPU, dem Qualcomm Sensing Hub und dem Speichersubsystem (Quelle: Qualcomm)

Qualcomm stellt seine neuen AI-Engines AI200 und AI250 vor und will (Rack-)Maßstäbe für die Inferenzleistung in Rechenzentren im KI-Zeitalter setzen. Mit innovativer Speicherarchitektur und einem Generationssprung bei der effektiven Speicherbandbreite sollen Gesamtbetriebskosten (TCO) gesenkt und die Effizienz bei KI-Workloads verbessert werden. Beide Lösungen kommen mit einem umfangreichen Software-Stack und sollen mit führenden KI-Frameworks kompatibel sein. Damit wird der Chipriese aber nicht lange allein bleiben. Für 2026 ist eine wahre Flut an KI-Racks zu erwarten.

Qualcomm Technologies kündigt die Einführung seiner nächsten Generation von KI-Inferenz-optimierten Lösungen für Rechenzentren an. Neben den chipbasierten Beschleunigerkarten Qualcomm® AI200 und AI250 will der Halbleiter-Spezialist erstmals auch ganze Racks auf Basis seiner NPU-Technologie bauen. Das Ziel sind schnelle generative KI-Inferenz bei hoher Leistung pro Dollar pro Watt – ein dringender Schritt angesichts der von NVIDIA und OpenAI propagierten Gigawatt-Rechenzentren.

MIt der AI200 plant Qualcomm eine speziell entwickelte AI-Inferenzlösung auf Rack-Ebene, mit der sich die Inferenz-Leistung großer Sprach- und multimodaler Modelle (LLM, LMM) sowie andere AI-Workloads optimieren lassen soll.

Qualcomm AI250 verspricht eine neue Speicherarchitektur auf Basis des Near-Memory-Computing. Qualcomm nennt eine mehr als zehnmal höhere effektive Speicherbandbreite und einen viel geringeren Stromverbrauch als herkömmliche Ansätze. Mit der AI250 soll eine disaggregierte und damit effizientere Nutzung der Hardware möglich sein.

Beide Rack-Lösungen sind wie auch NVIDIAs Rubin-Systeme ab der zweiten Generation nur mit direkter Flüssigkeitskühlung erhältlich. Der Stromverbrauch soll pro Rack 160 kW betragen. Das ist nur geringfügig niedriger als der Strombedarf von NVIDIAs Vera-Rubin-NVL144-Rack ohne CPX (200 kW).

Image

Description

Inferenz-Rack von Qualcomm

Ein mitgelieferter, hyperscaler-fähiger KI-Software-Stack ist für KI-Inferenz optimiert und soll führende Frameworks wie PyTorch und ONNX für maschinelles Lernen (ML), Inferenz-Engines wie vLLM oder generative KI-Frameworks wie LangChain und CrewA sowie LLM-/MML-Inferenzoptimierungstechniken wie disaggregated serving unterstützen. Hugging-Face-Modelle können mit einem Klick bereitgestellt werden. Die Software umfasst die Qualcomm AI Inference Suite sowie weitere einsatzbereite Anwendungen und Agenten, Werkzeuge, Bibliotheken, APIs und Dienste für die Operationalisierung von KI. Modelle Dritter sollen sich nahtlos integrieren lassen. Betriebssystemseitig werden Android, Windows und Linux unterstützt.

„Mit Qualcomm AI200 und AI250 definieren wir neu, was bei der KI-Inferenz im Rack-Maßstab möglich ist. Diese innovativen neuen KI-Infrastrukturlösungen ermöglichen es Kunden, generative KI zu beispiellosen Gesamtbetriebskosten einzusetzen und gleichzeitig die Flexibilität und Sicherheit zu gewährleisten, die moderne Rechenzentren erfordern“, sagt Durga Malladi, SVP & GM, Technology Planning, Edge Solutions & Data Center, Qualcomm Technologies, Inc. „Unser umfangreicher Software-Stack und unser offenes Ökosystem machen es Entwicklern und Unternehmen einfacher denn je, bereits trainierte KI-Modelle in unsere optimierten KI-Inferenzlösungen zu integrieren, zu verwalten und zu skalieren. Mit nahtloser Kompatibilität für führende KI-Frameworks und der Bereitstellung von Modellen mit einem Klick sind Qualcomm AI200 und AI250 für eine reibungslose Einführung und schnelle Innovation ausgelegt.“

Die Qualcomm-AI-Engine besteht aus mehreren Komponenten. Dazu gehören die Qualcomm Hexagon NPU, die Qualcomm Adreno GPU, die Qualcomm Kryo oder Qualcomm Oryon CPU, der Qualcomm Sensing Hub und ein Speichersubsystem.

Die Hexagon-NPU wurde speziell für KI-Inferenz-Workloads in Rechenzentren entwickelt und optimiert. LPDDR-Speicher sollen für geringere Kosten und eine erhöhte Speicherkapazität sorgen. Near-Memory-Computing bietet eine deutlich höhere effektive Speicherbandbreite bei einem geringeren Stromverbrauch. Sicherheitsfunktionen wurden für den Einsatz in Unternehmen integriert.

Beide Lösungen kommen voraussichtlich 2026 bzw. 2027 auf den Markt. Die Produkte sind Teil einer mehrjährigen Roadmap für KI-Inferenz in Rechenzentren mit jährlicher Kadenz.

„Wir treiben die Forschung im Bereich maschinelles Lernen in allen Bereichen voran, einschließlich grundlegender Technologien, Plattforminnovationen und angewandter Anwendungsfälle. Unser ganzheitlicher Systemansatz für Full-Stack-KI beschleunigt den Weg von der Forschung zur Kommerzialisierung. Wir sind begeistert vom Potenzial generativer KI, unsere Erfahrungen mit Technologie zu verändern“, sagt Jilei Hou, SVP Engineering bei Qualcomm AI Research.

Marktübersicht und Ausblick

Neben Broadcom und Qualcomm bauen immer mehr Siliziumbäcker ganze KI-Racksysteme. Erst gestern kündigten AMD und das US-Energieministerium (Department of Energy, DOE) zwei Supercomputer der nächsten Generation an. Mit dem Lux AI-Supercomputer und dem Discovery-Supercomputer soll die Führungsposition des DOE im Bereich KI ausgebaut und die amerikanische KI-Infrastruktur beschleunigt werden.

Auch Energieversorger dürfen weiter zittern: Diablo stellt selbst NVIDIAs Rubin-Ultra-Racks in den Schatten. Der Teufel ist ein von Meta, Microsoft und Google konzipiertes disaggregiertes Power-Rack (auch als Sidecar bekannt). Das modulare Stromversorgungsrack kann für verschiedene Leistungsanforderungen von 800 kW bis 1 MW+ skaliert werden.

Diablo ist eine Spezifikation für das Open Compute Project. Auf deren KI-Marktplatz gibt es weitere Beiträge für Planung und Bau eigener (offener) KI-Landschaften. In Fertig gibt es das ganze als Helios-Rack bei AMD.

Image

Description

AMDs Helios-Rack bringt Offenheit in die KI-Infrastruktur und soll leistungsfähiger und günstiger sein als NVIDIAs Rubin-Plattform.

Mit Helios verspricht AMD übrigens eine um 50% höhere Memorykapazität und eine um 40% bessere Token/$-Ratio als NVIDIAs Rubin-Systeme. Und auch sonst überzeugt das von Meta entworfene Design mit beeindruckenden Leistungsparametern. Über den Stromverbrauch sagt AMD nichts. Geht man von den im Vollausbau möglichen 128 MI355X-GPUs aus, liegt der Verbrauch bei mindestens 180 kW. Allerdings soll auch Helios nicht vor 2026 verfügbar sein.