Microsoft veröffentlicht zwei neue Versionen des Sprachmodells Phi-4

Microsoft hat zwei neue Versionen seines Phi-4-Sprachmodells veröffentlicht. Es handelt sich um Phi-4-mini, das nur Text verarbeiten kann, und eine multimodale Variante, die auch visuelle und akustische Eingaben verarbeiten kann.

Beide Versionen sind unter einer MIT-Lizenz erschienen. Phi-4 multimodal ist das erste Sprachmodell, das Text, visuelle Eingaben und Sprache in einer einzigen Architektur kombiniert, so Microsoft. Alle diese Eingaben können daher gleichzeitig verarbeitet werden, ohne dass komplexe Pipelines oder separate Modelle erforderlich sind. Phi-4-multimodal enthält 5,6 Milliarden Parameter und soll eine bessere Spracherkennung, Übersetzungen, Zusammenfassungen, das Verstehen von Audio und Bildanalysen ermöglichen.

Phi-4-mini kann nur Text verarbeiten und ist mit 3,8 Milliarden Parametern wesentlich kleiner. Nach Angaben von Microsoft benötigt dieses Modell weniger leistungsfähige Hardware und erreicht eine höhere Verarbeitungsgeschwindigkeit. Beide Modelle sind jedoch kompakt genug, um in Umgebungen mit begrenzter Rechenleistung, wie z. B. auf mobilen Geräten, eingesetzt zu werden. Außerdem können sie auf dem Gerät selbst ausgeführt werden, so Microsoft. „Da sie weniger Rechenleistung benötigen, sind sie eine kostengünstigere Option mit besserer Latenzzeit“. Phi-4-multimodal und Phi-4-mini sind in der Azure AI Foundry, HuggingFace und Nvidias api Katalog verfügbar.

 

Have your say!

0 0

Antwort schreiben

Your email address will not be published.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Lost Password

Please enter your username or email address. You will receive a link to create a new password via email.