Startseite » Metas Lama 3: Untertrainiert trotz Daten-Rekordmenge

Metas Lama 3: Untertrainiert trotz Daten-Rekordmenge

KI-gesteuerte Systeme besser für die Umwelt als der Mensch Titel

Mit Llama 3 stellte Meta ein neues Sprachmodell vor, welches nicht nur die Leistungsfähigkeit anderer Modelle übertrifft. Gleichwohl wurde es auch mit einer Rekordmenge an Daten trainiert. Wie der KI-Forscher Andrej Karpathy jedoch auf Twitter erläuterte, gilt das Modell nach wie vor als untertrainiert. Nur Vermutungen lassen derzeit erahnen, wozu KI-Modelle in ein paar Jahren fähig sein werden.

Der KI-Hype ist ungebrochen

Schon vor ein paar Tagen berichteten wir darüber, dass der KI-Hype und die Entwicklung unterschiedlichster Modelle laut des AI Index Reports der Stanford University auf der ganzen Welt alleine im Jahr 2023 erheblich zugenommen hat.

Gleichwohl fragen sich Experten, wann die KI den Menschen in Bezug auf seine Denkfähigkeit einholt. In diesem Bezug zeigen einige Berichte, dass dies mit hoher Wahrscheinlichkeit noch ein paar Jahre dauern wird. Doch daneben gibt es noch ein weiteres Problem, das derzeit möglicherweise die Entwicklung der KI ausbremst.

Metas Llama 3 gilt laut Experten als untertrainiert

Das erst jüngst vorgestellte Sprachmodell Llama 3 zeigt sehr gut, warum die KI möglicherweise den Menschen noch immer nicht eingeholt hat. Hier zunächst ein paar Fakten:

  • Die KI wurde zum Finetuning mit etwa 10 Millionen qualitativ hochwertigen Beispielen gefüttert.
  • Das Modell trainierte mit etwa 15 Billionen Token.
  • Die Datenmenge überschritt jene, die zum Training von Llama 2 eingesetzt wurde, um Welten.

Bei alldem hielt man sich an die Datenmengen, die laut den Chinchilla-Skalierungsgesetzen als optimal gilt. Zu bedenken gilt außerdem, dass für ein 8-Milliarden Modell etwa 200 Milliarden Trainings-Token ausreichen sollten. Unter diesem Aspekt würde auch die Rechenleistung optimal genutzt, sodass das System effizient arbeiten kann. Fakt ist allerdings, dass Llama 3 alleine auf die 75-fache Datenmenge zurückgriff und somit über dem optimalen Durchschnitt lag.

Seine maximale Recheneffizienz sei trotz der hohen Menge jedoch noch lange nicht erreicht und ausgeschöpft. Laut Andrej Karpathy, einem Gründungsmitglied von OpenAI und ehemaligem KI-Chef von Tesla sei das System eher untertrainiert.

Die Leistung des Modells steigere selbst mit dem Training von 15 Billionen Token noch weiter log-linear an. Sämtliche Erkenntnisse fasste Karpathy in einem eigenen Post auf der Plattform X zusammen.

Die Grenze des Machbaren ist noch nicht erreicht

Karpathy bezifferte die Defizite des Systems im Blogbeitrag noch weiter. Laut ihm sind die Sprachmodelle derzeit um den Faktor 100 oder 1000 untertrainiert, sodass sie noch lange nicht ihr maximales Potenzial erreicht hätten.

Infolge des aktuellen KI-Hypes sei es jedoch absehbar, dass zukünftig auch noch weiter an dieser Entwicklung gearbeitet wird und weitere Modelle erscheinen, die nicht nur kompakter sind, sondern auch in Langzeit trainieren und so einen noch besseren Schluss über die Leistungsfähigkeit zulassen.

Wann die Grenze erreicht sei, lässt sich derzeit noch nicht abschätzen. Es ist jedoch absehbar, dass es binnen der nächsten Jahre diesbezüglich spannend werden könnte.

Quellen: X/Twitter, Andrej Karpathy

Written by
Maria Lengemann ist 37, Gamerin aus Leidenschaft, Thriller-Autorin und Serienjunkie. Sie ist seit 14 Jahren selbstständig und journalistisch auf den Hardware- und Gaming-Bereich spezialisiert.

Have your say!

0 0

Antwort schreiben

Your email address will not be published.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Lost Password

Please enter your username or email address. You will receive a link to create a new password via email.

Zur Werkzeugleiste springen