Apple-Forscher haben eine Methode entwickelt, mit der die Geräte des Unternehmens, wie z.B. iPhones, ihre eigenen großen Sprachmodelle lokal ausführen können, ohne dass der verfügbare Speicher der Geräte überschritten wird. In einem Forschungspapier schreibt das Team, dass sie dafür eine neue Technik entwickelt haben, die es ermöglicht, die Daten des KI-Modells vorübergehend im Flash-Speicher des Geräts zu speichern, um die Kapazität des Geräts nicht zu überschreiten (PDF).
Dabei kommen zwei Methoden zum Einsatz, die die Datenübertragung minimieren und den Durchsatz maximieren. Die erste, das „Windowing“, ermöglicht die Wiederverwendung einiger bereits verarbeiteter Daten, so dass weniger Speicher abgerufen werden muss. Mit dem ‚row-column clustering‘ ist es dann möglich, Daten so zu gruppieren, dass sie schneller aus dem Flash-Speicher gelesen werden können.
Durch die Kombination dieser Methoden könnten KI-Modelle, die bis zur doppelten Menge an verfügbarem Arbeitsspeicher des iPhones benötigen, trotzdem lokal darauf laufen. Diese Technik würde auch vier- bis fünfmal schneller arbeiten als wenn sie direkt in CPUs geladen wird, und sogar zwanzig- bis fünfundzwanzigmal schneller als in GPUs. Die Forscher sprechen von einem technologischen „Durchbruch“, der für den „Einsatz fortgeschrittener llm’s in ressourcenbeschränkten Umgebungen“ entscheidend sein wird. Es wird übrigens nicht erwähnt, ob dies bedeutet, dass ein zukünftiges iPhone tatsächlich eine geräteeigene KI enthalten wird.
Quelle: Apple-onderzoek (PDF)