Microsoft hat zwei neue Versionen seines Phi-4-Sprachmodells veröffentlicht. Es handelt sich um Phi-4-mini, das nur Text verarbeiten kann, und eine multimodale Variante, die auch visuelle und akustische Eingaben verarbeiten kann.
Beide Versionen sind unter einer MIT-Lizenz erschienen. Phi-4 multimodal ist das erste Sprachmodell, das Text, visuelle Eingaben und Sprache in einer einzigen Architektur kombiniert, so Microsoft. Alle diese Eingaben können daher gleichzeitig verarbeitet werden, ohne dass komplexe Pipelines oder separate Modelle erforderlich sind. Phi-4-multimodal enthält 5,6 Milliarden Parameter und soll eine bessere Spracherkennung, Übersetzungen, Zusammenfassungen, das Verstehen von Audio und Bildanalysen ermöglichen.
Phi-4-mini kann nur Text verarbeiten und ist mit 3,8 Milliarden Parametern wesentlich kleiner. Nach Angaben von Microsoft benötigt dieses Modell weniger leistungsfähige Hardware und erreicht eine höhere Verarbeitungsgeschwindigkeit. Beide Modelle sind jedoch kompakt genug, um in Umgebungen mit begrenzter Rechenleistung, wie z. B. auf mobilen Geräten, eingesetzt zu werden. Außerdem können sie auf dem Gerät selbst ausgeführt werden, so Microsoft. „Da sie weniger Rechenleistung benötigen, sind sie eine kostengünstigere Option mit besserer Latenzzeit“. Phi-4-multimodal und Phi-4-mini sind in der Azure AI Foundry, HuggingFace und Nvidias api Katalog verfügbar.