Startseite » Nvidia Blackwell mit neuen Datenformaten: Tensor-Kerne bringen mehr Leistung

Nvidia Blackwell mit neuen Datenformaten: Tensor-Kerne bringen mehr Leistung

Nvidias Blackwell-GPUs mit mehr Kernen & 512-Bit-Bus Titel

Die Hot Chips 2024 endete am 27. August. Bereits im Vorfeld stellte Nvidia die neue Blackwell-Infrastruktur mit den NVLink-Interconnects vor. Die Tensor-Kerne in den KI-Beschleunigern Blackwell NVLink sorgen für mehr Leistung.

Nvidia informierte bereits im Vorfeld der diesjährigen Hot Chips Konferenz über die KI-Beschleuniger Blackwell NVLink. Auf der nun zu Ende gegangenen Hot Chips Konferenz stellte Nvidia die Beschleuniger näher vor und ging auf die Blackwell-Architektur, die darin befindlichen Tensor-Kerne, die NVLink-Interconnects und die dazugehörigen Switches ein. Mit den Tensor-Kernen lassen sich in einem Durchlauf große Matrizen berechnen. Neue Datenformate sorgen noch für einen deutlich höheren Durchsatz.

Neues Quantisierungs-System für höhere Leistung

Schon vor einigen Tagen berichteten wir über Blackwell NVLink von Nvidia als künftige Hardware für KI und deren Fertigung beim Chipauftragshersteller TSMC. Wir gingen auch kurz auf die Blackwell-Architektur ein. Beim Interferencing großer Modelle will Nvidia die Leistung mit einem neuen Quantisierungs-System steigern. Die Quantisierung ist eine Form der Komprimierung. Sie sorgt dafür, dass weniger Daten für eine vergleichbare Informationsdichte benötigt werden, beispielsweise bei einem mit KI erstellten Bild. Das Interferencing wird damit deutlich beschleunigt.

Hersteller von Hard- und Software haben sich in den letzten Monaten bemüht, einfachere Datenformate wie FFP4 und INT4, aber auch INT8 oder FP8 zu nutzen. Der Leistungsvorteil war bislang begrenzt, denn für FP4- und INT4-Berechnungen wurden noch die kompletten FP8- oder INT8-Recheneinheiten belegt.

Für die Blackwell-Architektur und deren fünfte Generation der Tensor-Kerne nutzt Nvidia nun neue Micro-Tensor Scaled Datenformate. Im Idealfall können die Tensor-Kerne mehrere FP4-, FP6- oder FP8-Berechnungen gleichzeitig ausführen. Die Berechnungen verteilen sich auf die volle Vektorlänge.

Höhere Datendurchsätze mit Tensor-Architektur der fünften Generation

Mit der fünften Generation der Tensor-Kerne wird der Durchsatz deutlich gesteigert, verglichen mit der vierten Generation oder der Hopper-Architektur. Jetzt können vier FP4-Berechnungen oder zwei FP8-Berechnungen durchgeführt werden, wo zuvor nur eine FP16-Berechnung möglich war.

Die Zahl der Multiply-Accumulate-Operationen (MACs) pro Taktzyklus verdoppelt sich bei den Datenformaten FP8, FP16 und BF16 im Vergleich zu Hopper. Der Durchsatz für FP4 verdoppelt sich, verglichen mit FP8, noch einmal.

Nvidia hat bei diesen Angaben noch nicht berücksichtigt, dass sich in einer Blackwell-GPU mehr Tensor-Kerne befinden, da mehr SMs enthalten sind. Der Chip wird darüber hinaus noch höher getaktet. Das führt zu einer zweifachen Leistungssteigerung.

Informationsgehalt nicht verlieren

Auf keinen Fall darf bei den KI-Modellen der Informationsgehalt verlorengehen. Das betrifft auch einfache Datenformate. Bei der Quantisierung muss also immer beachtet werden, dass der Informationsgehalt erhalten bleibt. Wird von FP16 auf FP8 gewechselt, kann das auf der Ebene der Hardware berücksichtigt werden. Der Nutzer bekommt davon nichts mit und muss auch keine Optimierung vornehmen.

Im Interferencing bleibt die Qualität des KI-Modells bestehen, da das Ergebnis beim Massive Multitask Language Understanding (MMLU) fast identisch ist, wenn BF16 zu FP4 verwendet wird. Die Hardware wird immer schneller, was die Hersteller auch zu einer Optimierung der Software zwingt. Die Leistung wird bei den großen KI-Modellen mit der Quantifizierung deutlich gesteigert.

Quellen: Nvidia, hardwareLUXX

Written by
Maria Lengemann ist 37, Gamerin aus Leidenschaft, Thriller-Autorin und Serienjunkie. Sie ist seit 14 Jahren selbstständig und journalistisch auf den Hardware- und Gaming-Bereich spezialisiert.

Have your say!

0 0

Leave a Reply

Your email address will not be published.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Lost Password

Please enter your username or email address. You will receive a link to create a new password via email.

Zur Werkzeugleiste springen