Može li nam AI pomoći da otkrijemo kad umjetna inteligencija laže?

Veliki jezični modeli kao što su ChatGPT i Gemini sustavi su umjetne inteligencije koji mogu čitati i generisati prirodni ljudski jezik.

FOTO: PIXABAY

Ilustracija

Međutim, takvi sustavi znaju biti skloni halucinacijama, u kojima je generirani sadržaj netačan ili besmislen. Granice do kojih u svojim halucinacijama ti LLM-ovi mogu ići nije lako otkriti jer se njihovi odgovori doista mogu činiti uvjerljivima, piše Bug.hr

Istraživači Odjela računalnih znanosti Sveučilišta u Oxfordu odlučili su kvantificirati stepen halucinacija koje stvara LLM. Svoju metodu za otkrivanje halucinacija u velikim jezičnim modelima koja mjeri nesigurnost u značenju generiranih odgovora predstavili su u časopisu Nature.

Njihova metoda detektira konfabulacije, specifičnu potklasu proizvoljnih halucinacija koje se javljaju kad u LLM-u postoji nedostatak znanja. Pristup uzima u obzir nijansu jezika i kako se odgovori mogu izraziti na različite načine, s različitim značenjima. Autori su na primjerima pokazali kako njihova metoda može otkriti konfabulacije u biografijama koje je izradio LLM i u odgovorima na pitanja iz općem znanja, znanosti o životu i raznim trivijalnim temama.

Zadatak obavlja LLM, a ocjenjuje ga treći LLM, što je jednako “gašenju vatre vatrom”, komentiraju recenzenti ovog rada. Korištenje velikog jezičnog modela za procjenu metode temeljene na LLM-u čini se cirkularnim i moglo bi, kažu, biti pristrano.

Međutim, autori smatraju kako njihova metoda može pomoći korisnicima da razumiju kad bi trebali biti oprezni pri oslanjanju na odgovore velikih jezičnih modela i tako steći više povjerenja u njih.

laganje umjetna inteligencija