Siri wird immer schlauer, wird bald iPhone-Apps verstehen

54015-108808-Siri-icon-xl
Übersetzen von : Siri bliver klogere, forstår snart iPhone apps
Jetzt kann Siri mit der neuen Technologie Ferret-UI noch intelligenter werden.

Für viele war Siri über Apples iPhones das erste KI-Tool, dem wir begegneten. Der KI-gestützte Sprachassistent wurde 2011 als Teil der Funktionen des iPhone 4S vorgestellt. Egal, ob er uns dabei half, einen Anruf anzunehmen oder den Wecker zu stellen, Siri machte das Leben einfacher und es machte wirklich Spaß, mit ihm zu interagieren.

Aber in den letzten Jahren haben wir eigentlich keine größeren Ankündigungen zu Siri gesehen. Jetzt, da KI im Rampenlicht steht, insbesondere nach der Einführung des Chatbots ChatGPT von OpenAI, wird berichtet, dass Siri in Zukunft möglicherweise auch intelligenter wird. Berichte, dass Apple an generativen KI-Funktionen für Siri arbeitet, kursieren schon seit einiger Zeit. Jetzt spricht ein von der Cornell University veröffentlichtes Forschungspapier über ein neues MLLM (Multimodal Large Language Model), das verstehen könnte, wie die Benutzeroberfläche eines Telefons funktioniert.

Der Artikel mit dem Titel „Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs“ erklärt, wie die Technologie große Fortschritte gemacht hat, aber immer noch Einschränkungen aufweist, wenn es um die Interaktion mit der Benutzeroberfläche auf Bildschirmen geht. Allerdings handelt es sich bei Ferret UI (veröffentlicht im letzten Oktober) um ein MLLM, das entwickelt wird, um UI-Bildschirme zu verstehen und zu verstehen, wie Apps auf einem Telefon funktionieren.

siri-apple-iphone.jpg

Dem Artikel zufolge verfügt das MLLM möglicherweise auch über „Referenzierungs-, Verankerungs- und Argumentationsfähigkeiten“. Eine der größten Herausforderungen bei der Verbesserung des KI-Verständnisses für App-Bildschirme liegt in den unterschiedlichen Seitenverhältnissen und kompakten Darstellungen auf Smartphone-Bildschirmen. Ferret-UI bewältigt dieses Hindernis, indem es Details vergrößert und verbesserte visuelle Funktionen nutzt, um selbst die kleinsten Symbole und Schaltflächen zu verstehen.

Der Artikel erwähnt auch, dass Ferret-UI durch sorgfältiges Training bestehende Modelle in der Fähigkeit, App-Schnittstellen zu verstehen und mit ihnen zu interagieren, übertroffen hat. Wenn Ferret UI in Apples Sprachassistentin Siri integriert wird, können wir davon ausgehen, dass das Tool dadurch noch intelligenter wird. Der digitale Assistent kann künftig komplexe Aufgaben innerhalb von Apps erledigen. Stellen Sie sich vor, Sie weisen Siri an, einen Flug zu buchen oder eine Reservierung vorzunehmen, und Siri interagiert nahtlos mit der entsprechenden App, um die Anfrage zu erfüllen.

Bei Ferret handelt es sich um ein multimodales, großes Open-Source-Sprachmodell, das zwischen Apple und der Cornell University als Ergebnis umfangreicher Forschung darüber veröffentlicht wurde, wie große Sprachmodelle Elemente in Bildern erkennen und verstehen können. Das bedeutet, dass eine Benutzeroberfläche mit Ferret Anfragen wie die für ChatGPT oder Gemini verarbeiten kann. Ferret wurde im vergangenen Oktober zu Forschungszwecken gestartet.

Our Partners