AMD hat sein eigenes Sprachmodell veröffentlicht. Instella ist ein Modell mit drei Milliarden Parametern, das auf AMDs eigenen Instinct MI300X-GPUs trainiert wurde. Das Modell ist als Open Source unter einer Forschungslizenz verfügbar.
AMD kündigte Instella an und stellte es sowohl auf Github als auch Hugging Face zur Verfügung.
Instella besteht aus vier Modellen, die sich alle auf eine andere Phase des Trainingsprozesses konzentrieren. Insgesamt wurden die Modelle mit 4,15 Billionen Token trainiert, wobei das erste Vorab-Trainingsmodell, Instella-3B-Stage1, mit 4,065 Billionen Token das größte ist. Die Modelle wurden auf 128 Instinct MI300X-GPUs trainiert. Laut AMD zeigt das Modell, dass das Unternehmen seine eigene Hardware für die Bereitstellung skalierbarer KI-Trainingsmodelle einsetzen kann.
Dadurch entsteht ein Sprachmodell, das insgesamt drei Milliarden Parameter enthält und eine ähnliche oder, laut AMD, bessere Leistung als Llama-3.2-3B und Gemma-2-2B aufweist. Das Modell enthält 36 Decoder-Schichten, die jeweils über 32 sogenannte Aufmerksamkeitsköpfe verfügen. Die Decoder-Schichten helfen bei der Generierung von Ausgabetext; die Aufmerksamkeitsköpfe sollen das Modell auf die verschiedenen Komponenten dieses Textes fokussieren. Das Modell verfügt über eine Trainings-Pipeline, die auf OLMo basiert.
AMD stellt das Modell als Open Source unter einer ResearchRAIL-Lizenz zur Verfügung. Das bedeutet, dass das Modell nicht vollständig offen und kostenlos ist: Es handelt sich um eine Lizenz, die die Nutzung des Modells für Forschungszwecke erlaubt und von den Entwicklern verlangt, sich an die von AMD festgelegten Regeln zu halten. So darf das Tool beispielsweise nicht für „schädliche“ Zwecke wie Betrug, Diskriminierung oder zur Erstellung von Malware verwendet werden.