Siri bliver klogere, forstår snart iPhone apps

Nu kan Siri blive endnu smartere med ny teknologi, Ferret-UI.

10 apr. 2024 kl. 10:54 Af Maria DEL:

For mange var det første AI værktøj, vi stødte på, Siri via Apples iPhones. Den AI-drevne taleassistent blev afsløret som en del af iPhone 4S' funktioner i 2011. Uanset om det var ved at hjælpe os med at besvare et opkald eller indstille alarmen, gjorde Siri livet nemmere og var ret sjov at interagere med.

Men i de seneste år har vi faktisk ikke set nogen større meddelelser med hensyn til Siri. Nu hvor AI står i rampelyset, især efter OpenAI's chatbot ChatGPT's lancering, rapporteres det, at Siri også kan blive smartere i fremtiden. Rapporter om, at Apple arbejder på generative AI-funktioner til Siri, har cirkuleret i et stykke tid. Nu taler en forskningsartikel offentliggjort af Cornell University om en ny MLLM (Multimodal Large Language Model), der måske forstår, hvordan en telefons brugergrænseflade fungerer.

Artiklen, med titlen "Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs", forklarer, hvordan teknologien er kommet langt, men stadig har begrænsninger, når det kommer til interaktion med brugergrænsefladen på skærme. Dog er Ferret UI (som blev lanceret i oktober sidste år) et MLLM, der er under udvikling for at forstå UI-skærme og forstå, hvordan apps på en telefon fungerer.

MLLM'en, ifølge artiklen, kan også have "henvisnings-, forankrings- og ræsonnementsmuligheder." En af de primære udfordringer ved at forbedre AI's forståelse for appskærme ligger i de forskellige billedformatforhold og kompakte visuelle elementer, der findes på smartphoneskærme. Ferret-UI tackler denne hindring ved at forstørre detaljer og udnytte forbedrede visuelle funktioner til at forstå selv de mindste ikoner og knapper.

Artiklen nævner også, at Ferret-UI gennem omhyggelig træning har overgået eksisterende modeller i evnen til at forstå og interagere med appgrænseflader. Hvis Ferret-UI bliver inkorporeret i Apple's taleassistent Siri, kan vi forvente, at det gør værktøjet endnu smartere. Den digitale assistent kan i fremtiden udføre komplekse opgaver inden for apps. Forestil dig at instruere Siri i at booke en flyvning eller lave en reservation, og uden problemer interagerer Siri med den tilsvarende app for at opfylde anmodningen.

Når det kommer til Ferret, er det en open-source, multimodal large language model, der blev frigivet mellem Apple og Cornell University som et resultat af omfattende forskning i, hvordan store sprogmodeller kunne genkende og forstå elementer inden for billeder. Dette betyder, at en brugergrænseflade med Ferret kan håndtere forespørgsler som dem til ChatGPT eller Gemini. Ferret blev lanceret til forskningsformål i oktober sidste år.