Googles Hands-on-Video mit Gemini war einer der beeindruckendsten Aspekte der Einführung des neuen großen KI-Sprachmodells (LLM) des Unternehmens. Bloomberg hat jedoch mit einem Google-Sprecher gesprochen, der zugab, dass das Video nicht in Echtzeit aufgezeichnet wurde. Darüber hinaus wurden nicht einmal Sprachansagen verwendet, sondern die stimmliche Interaktion mit Gemini, die Sie hören, wurde später eingesprochen. Google hat zeitgleich mit der Demo auch einen Blogbeitrag veröffentlicht, der zeigt, wie das Video entstanden ist.
Sundar Pichai, der CEO von Google, teilte das praktische Video am Donnerstag, da er sagte, der beste Weg, „Geminis zugrunde liegende erstaunliche Fähigkeiten zu verstehen, ist, sie in Aktion zu sehen“. Ein Hinweis darauf, dass nicht alles so war, wie es schien, war in der YouTube-Beschreibung des Videos enthalten. „Für die Zwecke dieser Demo wurde die Latenzzeit reduziert und die Gemini-Ausgaben wurden der Kürze halber gekürzt“, heißt es in einer Fußnote.
Die Sprachansagen wurden nachträglich synchronisiert, und das Video wurde nicht in Echtzeit aufgenommen
Diese Fußnote könnte man allerdings als Untertreibung oder Ablenkung von der Wahrheit bezeichnen. Da das Video nicht nur gekürzt wurde, gab es während der Aufnahme keine echte Interaktion. Ein Google-Sprecher erklärte gegenüber Bloomberg, dass das Hands-On-Video mit „Standbildern aus dem Filmmaterial und Eingabeaufforderungen per Text“ zusammengeschustert wurde. Gemini reagierte also nur auf eingegebene Eingabeaufforderungen und auf hochgeladene Standbilder. Der Gesprächsfluss mit dem sprechenden, zeichnenden, Objekte zeigenden, mit Tassen und anderen Gegenständen spielenden Menschen wurde scheinbar nur für das Demo-Video inszeniert.
Seeing some qs on what Gemini *is* (beyond the zodiac :). Best way to understand Gemini’s underlying amazing capabilities is to see them in action, take a look ⬇️ pic.twitter.com/OiCZSsOnCc
— Sundar Pichai (@sundarpichai) December 6, 2023
Wenn wir uns das Video ansehen, zerschlägt die Erklärung des Sprechers den Eindruck des natürlichen Gesprächs mit dem Assistenten, den wir beim ersten Anschauen der Demo hatten.
Weitere Erklärungen zum Video „Hands-on with Gemini“ kamen heute vom VP of Research & Deep Learning Lead, Google DeepMind, Oriol Vinyals. „Das Video veranschaulicht, wie die mit Gemini erstellten multimodalen Nutzererfahrungen aussehen könnten“, so Vinyals. „Wir haben es gemacht, um Entwickler zu inspirieren.“ Der Beitrag des Google-DeepMind-Vizepräsidenten zog eine Menge Feuer auf sich, weil er die Behauptung wiederholte, das Video sei „echt, der Kürze halber gekürzt“.
Really happy to see the interest around our “Hands-on with Gemini” video. In our developer blog yesterday, we broke down how Gemini was used to create it. https://t.co/50gjMkaVc0
We gave Gemini sequences of different modalities — image and text in this case — and had it respond… pic.twitter.com/Beba5M5dHP
— Oriol Vinyals (@OriolVinyalsML) December 7, 2023
Hoffentlich kann Googles Video Entwickler – bei Google – dazu inspirieren, Gemini genauso funktionieren zu lassen wie im Demo-Video. Wenn nicht, könnten sich die Menschen durch die Kluft zwischen der praktischen Video-Demo und der Realität ein wenig getäuscht oder sogar betrogen fühlen.