Der Start der Ryzen-9000-Prozessoren von AMD wurde in den August verschoben. Der Grund dafür sollen Qualitätsprobleme sein. AMD hat noch vor dem Start einige nähere Details über die Zen-5-Architektur und den SoC-Aufbau veröffentlicht.
Bei AMD bildet die Zen-5-Technologie in den kommenden Jahren die Basisarchitektur für die Prozessoren. Innerhalb einer Architektur können immer wieder Änderungen auftreten. Bei der Zen-5-Architektur gibt es verschiedene Vorgaben, die ein Fundament bilden und auch bei den kommenden Generationen vorhanden sein werden. Die Ryzen-9000-Prozessoren, auch als Granite Ridge bekannt, basieren auf der Zen-5-Architektur und sollen im August 2024 auf den Markt kommen.
Flexibilität mit Zen-5-Architektur
Über die Ryzen-9000-Prozessoren von AMD und die Zen-5-Architektur als Basis haben wir bereits berichtet. Es ging dabei auch um Änderungen in der Cache-Hierarchie. AMD bietet mit den kompakten Zen-5c-Kernen und der Zen-5-Technologie ein gewisses Maß an Flexibilität. Die Zen-5-Architektur lässt sich an verschiedene Produkte anpassen. Sie verfügt über einen Fließkomma-Datenpfad in der Breite von 512 Bit, der bei der Unterstützung von AVX512 in voller Breite genutzt wird. Die Kerne können von AMD auch für einen nur 256 Bit breiten Fließkomma-Datenpfad konfiguriert werden.
Für die Ryzen-AI-300 Prozessoren und Strix Point ist diese Flexibilität vorteilhaft. Die Architektur wurde im Zen-6-Core-Komplex mit Zen-5-Kernen und Zen-5c-Kernen so geändert, dass ein Fließkomma-Datenpfad der Breite von 256 Bit genutzt wird. Die volle Breite von 512 Bit wird für die Ryzen-9000-Prozessoren genutzt. Sie könnte auch für die EPYC-Prozessoren mit Zen-5-Architektur verwendet werden.
Über alle Kerne hinweg strebt AMD eine ISA-Kompatibilität an. Das ist der Grund, warum für die beiden Kern-Typen bei Strix Point jeweils 256 Bit genutzt werden.
Taktzyklen in der Architektur
Sprungvorhersagen sind der Beginn in der Architektur. In der Zen-5-Generation gibt es für einen Taktzyklus mehr Vorhersagen. Eine höhere Genauigkeit wird angestrebt, die durch einen L1 Branche Targer Buffer (BTB) erzielt werden kann. Er hat die Größe des L2-Cache und einen Adress Stack mit 52 Einträgen. Pro Taktzyklus sind drei Vorhersage-Fenster vorhanden.
Da der L1-Cache für verschiedene Bereiche zu klein ist, müssen aus dem L2-Cache Daten abgefragt werden. Der L2-Cache-ITLB wurde von AMD daher auf 2.048 Einträge erhöht. Instruktionen sind mit 64 Bytes pro Taktzyklus abrufbar.
Der Op-Cache hat auf der Decode-Seite 33 Prozent mehr Verknüpfungen und Assoziativität. Die Bandbreite an Instruktionen liegt bei zweimal sechs pro Taktzyklus. Die beiden Decode-Pipelines arbeiten parallel und pro Taktzyklus vier Instruktionen verarbeiten. Pro Taktzyklus werden am Ende acht Instruktionen an die Fließkomma- und Integer-Einheiten verschickt.
Details zum Integer-Scheduler
Die Zen-5-Architektur verfügt bei den Integer-Einheiten über sechs Arithmetic Logic Units (ALU) und vier Address Generation Units (AGUs). Mit dem Integer-Scheduler sind acht Dispatch-, Rename- und Retire-Funktionen ausführbar. Der Physical Register File hat 240 Einträge, der Re-Order-Buffer (ROB) bringt es auf 448 Einträge. Er wird im SMT-Modus auf 224 halbiert.
Informationen über den Cache
Größer geworden ist der L1-Data-Cache, der es nun auf 48 kB bringt. Er wird auf 12-Way verbreitert. Die Load-Latenz mit vier Taktzyklen konnte beibehalten werden. Der L1D-Cache ermöglicht vier Lesezugriffe und zwei Schreibzugriffe.
Der Data Translation Lookaside Buffer hat für den L1-Cache 96 Einträge und für den L2-Cache 4.096 Einträge. AMD hat für die Sprungvorhersage die 2D-Stride-Vorhersage entwickelt.
Der Datenpfad in der Breite von 512 Bit spielt die wichtigste Rolle bei den Fließkomma-Einheiten. Es gibt drei Fließkomma-Pipelines. Sie unterstützen eine Vektorbreite von 512 oder 256 Bit. Pro Taktzyklus sind zwei Loads oder ein Store möglich. Die Latenz für Floating Points Adds liegt bei drei Taktzyklen.
Das Vektor-Register hat 384 Einträge, die an die Verdopplung des Datenpfads gekoppelt sind.
Änderungen in der Cache-Hierarchie und im SoC-Design
Die größere Anzahl und Breite der Ausführungseinheiten verlangt nach mehr Bandbreite bei den einzelnen Cache-Stufen. Der L1-Cache hat daher eine Größe von 48 kB. Änderungen in der Bandreite zwischen L1- und L2-Cache und der Anbindung zum Speichercontroller gibt es nicht.
Im SoC-Design verwendet AMD erstmals ein asymmetrisches Verhältnis bei der L3-Cache-Kapazität. Dafür muss AMD mehr Arbeit für das Scheduling der Threads aufwenden. Eine Unterscheidung ist zwischen Zen-5-Kernen und Zen-5c-Kernen, aber auch in der L3-Cache-Kapazität erforderlich.
AMD weist auch darauf hin, dass die Zen-5c-Kerne um 25 Prozent kleiner als die Zen-5-Kerne sind.
Quellen: AMD, hardwareLUXX