Die diesjährige Hot-Chips-Konferenz ging am 27. August zu Ende und war für verschiedene Hersteller der Anlass, ihre neuen High-End-Chips vorzustellen. Sie überboten sich mit immer schnelleren und leistungsstärkeren Chips und auch mit KI-geeigneten CPUs.
Der Aufwand, schnellere und leistungsstärkere Chips zu entwickeln, hat sich für viele namhafte Hersteller gelohnt, wie die diesjährige Hot-Chips-Konferenz bewies. Nvidia präsentierte die Blackwell-GPU, Intel war mit Xeon 6 SoC vertreten, IBM zeigte mit Telum II einen Chip mit gigantischen Caches. Auch andere Hersteller waren vertreten. Einige von ihnen hatten ihre Produkte schon vor einigen Monaten angekündigt und nutzten die Gelegenheit, um nähere Details zu veröffentlichen.
Leistungsstarke Chips von bekannten Herstellern
Über einige leistungsstarke Chips, die auf der Hot-Chips-Konferenz vorgestellt wurden, hatten wir bereits berichtet. In unseren Beiträgen ging es unter anderem um Blackwell von Nvidia, darunter auch den KI-Beschleuniger Blackwell NVLink, der über Tensor-Kerne verfügt. Ein wichtiges Thema in unserem gestrigen Beitrag war auch der Xeon 6 SoC von Intel, der über Performance-Kerne verfügt und eine schnelle Ethernet-Anbindung ermöglicht.
Noch nicht erwähnt hatten wir hingegen Telum II von Intel, einen Chip mit hohen Cache-Kapazitäten, hoher Verfügbarkeit und geringen Latenzzeiten. Im Vergleich zum Vorgänger hat IBM die Leistungsaufnahme um 15 Prozent und den Platzbedarf der Kerne um 20 Prozent reduziert. Der Chip ist mit dem KI-Beschleuniger Spyre ausgestattet und wird als KI-Turbo gehandelt. Verglichen mit dem Vorgänger ist die Rechenkapazität um das Vierfache gestiegen.
KI-Beschleuniger Maia 100 von Microsoft
Microsoft kündigte Ende 2023 bereits den KI-Beschleuniger Maia 100 als Eigenentwicklung an. Das Unternehmen will ihn für das Inferencing und für das Training verwenden. Der Software-Riese machte bislang kaum Angaben zu den technischen Details.
Microsoft fertigt den Chip nicht selbst, sondern lässt ihn beim Chipauftragsfertiger TSMC in 5 nm herstellen. Der KI-Beschleuniger hat eine Fläche von 820 Quadratmillimetern und 64 GB an HBM2E für eine Bandbreite von 1,8 TB/s. TSMC integriert das Package mit einem Verfahren, das den Namen CoWoS-S trägt. Die Gesamtkapazität für L1- und L2-Cache wird von Microsoft mit 500 MB angegeben. Die TDP liegt bei einer guten Effizienz bei 500 Watt, doch sind auch maximal bis zu 700 Watt möglich. Das Netzwerk-Backend bringt eine Kapazität von 600 GB/ mit zwölf 400GbE-Verbindungen. Mit 16 PCIe-Express-5.0-Lanes erfolgt die Anbindung an das Host-System.
Ambitionierte Pläne von Ampere Computing
Ampere Computing konnte auf der Hot-Chips-Konferenz mit einem Chiplet-Ansatz für Datacenter-Prozessoren überzeugen, deren ARM-Kerne eine direkte Konkurrenz zu Intel und AMD darstellen. Auch wenn Ampere Computing ambitioniert ist, hängt das Unternehmen hinter den Giganten Microsoft und Amazon hinterher, die eigene ARM-Prozessoren entwickelt haben. Auf der Hot-Chips-Konferenz stellte Ampere Computing seinen AmpereOne vor, der gleich über drei Chiplets verfügt.
AmpereOne hat 192 Kerne und ist wahlweise mit acht oder mit zwölf DDR-Kanälen erhältlich. Das Compute-Chiplet ist das zentrale Element des AmpereOne und verfügt über bis zu 192 Custom-ARM-Kerne, die per Mesh-Interconnect miteinander verbunden werden und sich in einem 8×9-Mesh befinden.
Das Compute-Chiplet ist von vier PCIe-I/O-Dies eingerahmt, von denen jeder 32 PCI-Express-5.0-Lanes bereitstellt. Hier können vier oder sechs MCU-I/O-Dies für die Speicheranbindung gewählt werden. Abhängig davon, wie viele MCU-I/O-Dies gewählt werden, sind acht oder zwölf DDR5-Kanäle verfügbar, da jeder MCU-I/O-Die zwei solcher Kanäle hat. Die beiden I/O-Dies werden im Auftrag von Ampere Computing bei TSMC in 7 nm gefertigt.
Ampere Computing plant aktuell die Auslieferung des AmpereOne mit acht Speicherkanälen und 192 Kernen. Im vierten Quartal 2024 sollen die Varianten mit zwölf Speicherkanälen ausgeliefert werden.
Für das nächste Jahr plant Ampere Computing den AmpereOne MX mit 256 Kernen und den AmpereOne Aurora, der bis zu 512 Kerne haben soll.
Effizienter Inferencing-Chip Meta MTIA
MTIA ist die Abkürzung für Meta Training and Inference Accelerator. Meta hat den MTIA der zweiten Generation bereits im Februar 2024 angekündigt. Auch Meta beauftragt TSMC mit der Fertigung, die in 5 nm erfolgen soll. Der Chip hat eine Fläche von 421 Quadratmillimetern und eine TDP von 90 Watt. Er dient vor allem dem Inferencing und soll mit einer hohen Effizienz überzeugen. Er wird schon in einigen Datacentern genutzt und hat einen LPDDR5-6400-Speicher mit einer Kapazität von 128 GB und einer Bandbreite von 204,8 GB/s.
FuriosaAI mit RNGD Tensor Contraction Processorfür Inferencing
FuriosaAI ist ein Startup aus Südkorea, das den für das Inferencing in KI-Modellen vorgesehenen RNGD Tensor Contraction Processor vorgestellt hat. Das junge südkoreanische Unternehmen will es mit den H100-Beschleunigern von Nvidia aufnehmen, doch geht der namhafte Konkurrent bereits einen Schritt weiter. Nvidia hat bereits den H200 als verbesserte Version entwickelt und wird demnächst die Blackwell-Generation auf den Markt bringen. FuriosaAI will eine Alternative zu Nvidia schaffen, was im besten Fall mit Effizienz gelingt, doch sind auch Verfügbarkeit oder Preis denkbar.
Auch hier ist TSMC wieder als Auftragsfertiger gefragt, denn in 5 nm soll dort der auf der Beschleuniger-Karte befindliche SoC gefertigt werden. Die Größe des Chips wird mit 653 Quadratmillimetern angegeben. Der Chip ist mit ungefähr 40 Milliarden Transistoren ausgestattet. TSMC fertigt auch hier das gesamte Package, zu dem auch ein HBM3 mit einer Kapazität von zweimal 64 GB gehört. Die Fertigung des Packages erfolgt in der CoWoS-S-Technologie.
Direkt auf dem Chip können die im SoC platzierten Processing Elemente auf einen SRAM von 256 MB zugreifen. Auf dem HBM3 beträgt die Bandbreite 1,5 TB/s. FuriosaAI gibt die Bandbreite zum SRAM mit 384 TB/s an. Die TDP des Beschleunigers liegt bei 150 Watt. Die Kühlung soll einfach möglich sein. Der RNGD Tensor Prozessor hat für FP8-Berechnungen eine Rechenleistung von 512 TFLOPS. Das entspricht ungefähr einem Drittel der Rechenleistung einer L40S-GPU, wie sie von Nvidia hergestellt wird.
Quellen: Intel, Nvidia, IBM, Microsoft, Ampere Computing, Meta, Computerwoche, hardwareLUXX