Cleanlab håber, at deres værktøj vil gøre store sprogmodeller mere attraktive for virksomheder, der er bekymrede for, hvor meget de kan opfinde. "Jeg tror, folk ved, at store sprogmodeller vil ændre verden, men de er bare blevet hængt op på de dumme hallucinationer," siger Cleanlab CEO Curtis Northcutt. Chatbots er ved at blive den dominerende måde, folk søger informationer på en computer.
Søgemaskiner bliver redesignet omkring denne teknologi. Kontorsoftware, der bruges af milliarder af mennesker hver dag til alt fra skoleopgaver til markedsføring, har nu indbyggede chatbots. Alligevel fandt en undersøgelse fra november, udført af Vectara, en startup grundlagt af tidligere Google-ansatte, at chatbots opfinder information mindst 3% af tiden.
Det lyder måske ikke af meget, men det er en fejlmargen, de fleste virksomheder ikke vil acceptere. Cleanlabs værktøj bruges allerede af en håndfuld virksomheder, herunder Berkeley Research Group, en britisk konsulentvirksomhed specialiseret i virksomhedskonflikter og undersøgelser. Steven Gawthorpe, associeret direktør hos Berkeley Research Group, siger, at Cleanlabs Tillidsskabende Sprogmodel er den første levedygtige løsning på hallucinationsproblemet, han har set,
I 2021 udviklede Cleanlab en teknologi, der opdagede fejl i 34 populære datasæt, der anvendes til at træne maskinlæringsalgoritmer, ved at måle forskellene i output på tværs af en række modeller, der var blevet trænet på disse data. Denne teknologi bruges nu af flere store virksomheder, herunder Google, Tesla og den store bankgigant Chase. Den Tillidsskabende Sprogmodel anvender den samme grundlæggende idé - at uenigheder mellem modeller kan bruges som et mål for troværdigheden af det samlede system - og anvender det på chatbots.
I en demo, Cleanlab gav til MIT Technology Review, skrev Northcutt et simpelt spørgsmål ind i ChatGPT: "Hvor mange gange forekommer bogstavet 'n' i 'enter'?" ChatGPT svarede: "Bogstavet 'n' forekommer en gang i ordet 'enter'." Det korrekte svar øger tilliden. Men spørg spørgsmålet et par gange mere, og ChatGPT svarer: "Bogstavet 'n' forekommer to gange i ordet 'enter'.
"Resultater er ikke kun ofte forkert, det er også tilfældigt, man ved aldrig, hvad det vil give som output," siger Northcutt. "Hvorfor kan det ikke bare fortælle, at det giver forskellige svar hele tiden?" Cleanlabs mål er at gøre denne tilfældighed mere eksperimentabel.
Northcutt spørger Tillidsskabende Sprogmodel det samme spørgsmål. "Bogstavet 'n' forekommer en gang i ordet 'enter'," svarer den - og scorer sit svar 0,63. Seks ud af 10 er ikke en god score og antyder, at chatbottens svar på dette spørgsmål ikke skal betragtes som pålideligt. Det er et simpelt eksempel, men det illustrerer pointen.
Uden scoren kunne man tro, at chatbotten vidste, hvad den talte om, siger Northcutt. Problemet er, at dataloger, der tester store sprogmodeller i højrisikosituationer, kan blive vildledt af et par korrekte svar og antage, at fremtidige svar også vil være korrekte: "De prøver ting af, de prøver et par eksempler, og de tror, det virker. Og så træffer de beslutninger, der resulterer i virkelig dårlige forretningsbeslutninger."