Elon Musk hat mit seinem Unternehmen X.AI eigenen Angaben zufolge das bislang größte KI-Cluster gebaut. Es ist noch nicht vollständig fertig, denn der Ausbau mit den 100.000 Beschleunigern von Nvidia vom Typ H100 ist noch nicht abgeschlossen.
Auf X behauptet Elon Musk, dass er mit seinem Unternehmen X.AI das größte KI-Cluster in Betrieb genommen hat, das es gegenwärtig gibt. Der Ausbau scheint noch nicht abgeschlossen zu sein. X.AI arbeitet bereits seit einiger Zeit am Bau eines gewaltigen KI-Clusters. Es soll das aktuelle System ablösen, das mit 20.000 Beschleunigern arbeitet. Auf der Hardware trainiert X.AI eigene LLMs, bei denen es sich um selbstlernende Maschinen handelt, die ähnlich wie ChatGPT funktionieren und den Namen Grok tragen.
Elon Musk will sich Spitzenplatz bei KI sichern
Bereits am 11. Juli berichteten wir darüber, dass X.AI-Chef Elon Musk den Bau eines Supercomputers plant, um sich einen Spitzenplatz bei KI zu sichern. Bei dem gegenwärtig gebauten KI-Cluster soll es sich um diesen Supercomputer handeln. In unserem Beitrag ging es auch um die Umverteilung der GPUs und darum, dass Elon Musk 100.000 Module vom Typ H100 von Nvidia dafür verwenden will.
Die Umverteilung der GPUs sorgte kürzlich für Unmut. Die Beschleuniger waren ursprünglich für Tesla vorgesehen, doch wollte Musk selbst sie sich für sein Startup X.AI sichern. Vermutlich fürchtet er, hinter anderen KI-Größen wie Meta, Google oder OpenAI zurückzubleiben.
Memphis als Standort für KI-Cluster
Als Standort für das neue KI-Cluster ist Memphis im US-Bundesstaat Texas vorgesehen. Es handelt sich tatsächlich um das aktuell größte KI-Cluster, wenn es mit 100.000 H100-Beschleunigern von Nvidia ausgestattet ist. Im Frühjahr 2024 stellte Meta zwei riesige Cluster vor, die jeweils nur ungefähr ein Viertel dieser Größe ausmachen. Jedes einzelne dieser Cluster arbeitet mit 24.576 Beschleunigern des Typs H100.
Über Azure arbeitet auch OpenAI auf Systemen, die vermutlich über eine fünfstellige Anzahl an Beschleunigern verfügen.
Probleme mit der Infrastruktur
Die Server sollen laut Angaben von Elon Musk von Supermicro und Dell hergestellt werden. H100-Server sind in luftgekühlten und wassergekühlten Varianten verfügbar. Welche Variante genutzt wird, hängt von der Infrastruktur des Rechenzentrums ab.
Die Infrastruktur stellt für die Inbetriebnahme eines Rechenzentrums von diesen Dimensionen in Memphis ein Problem dar. Bislang konnte das Gebäude nur über einen 8-MW-Anschluss versorgt werden. Das reicht für ein solches Rechenzentrum längst nicht aus.
Allein der Verbrauch der 100.000 Beschleuniger des Typs H100 liegt schon bei fast 70 MW. Elon Musk hat vermutlich schon mit dem Versorgungsunternehmen TVA verhandelt, um ab August weitere 50 MW nutzen zu können. Bis zum Ende des Jahres sind 200 MW geplant.
Leistungsaufnahme des KI-Clusters
Ein KI-Cluster mit 100.000 H100-Beschleunigern hat einer Analyse von SemiAnalysis zufolge eine Leistungsaufnahme von 155 MW. Aktiv in Betrieb sind gegenwärtig erst ungefähr 32.000 H100-Beschleuniger. Bis zum vierten Quartal 2024 sollen die restlichen Beschleuniger hinzukommen. Gegenwärtig fallen die Anforderungen an die Stromversorgung daher noch niedriger aus.
X.AI füllt die aktuell bestehende Versorgungslücke mit mobilen Generatoren. Auf dem Gelände in Memphis befinden sich gegenwärtig bereits 14 solcher Generatoren, die jeweils über eine Leistung von 2,5 MW verfügen. In der aktuellen Ausbaustufe können die 32.000 H100-Beschleuniger mit 8 MW aus dem Netz sowie mit ungefähr 35 MW aus den Generatoren betrieben werden. Das Versorgungsnetz soll entsprechend ausgebaut sein, bis die restlichen 68.000 Beschleuniger an den Start gehen.
Energieversorgung als kritischer Punkt
Der hohe Energieverbrauch des Clusters ergibt sich aus der Kommunikation der Beschleuniger untereinander und aus der dazugehörigen Infrastruktur, beispielsweise Kühlung. Der Ausbau der Stromversorgung zum Cluster ist ebenso kritisch wie die Verfügbarkeit der Hardware. X.AI baut nicht als einziges Unternehmen solche KI-Cluster. Fragen ergeben sich daher bezogen auf die Auswirkungen solcher Cluster auf Umwelt und Infrastruktur sowie über den Sinn dieser KI-Cluster.
Quellen: X.AI, Elon Musk auf X, SemiAnalysis, hardwareLUXX