Kad AI točno razumije zadatak, a ipak isporuči nepotpun odgovor

Od početka razgovora moj zadatak za AI model bio je potpuno jasan. Nisam tražio okviran odgovor, nisam tražio nekoliko primjera i nisam tražio djelomičan pregled mogućnosti. Tražio sam potpun, točan i dokaziv popis stvarnih mogućnosti. To sam jasno definirao već na samom startu, a AI model je taj zadatak ispravno razumio i vlastitim riječima potvrdio da je razumio što tražim. Drugim riječima, priznao je da ne treba dati ilustrativan pregled, nego potpun popis stvarnih mogućnosti vezanih uz moje pitanje, uz jasan i provjerljiv temelj za svaku tvrdnju.

Problem je nastao već kod prvog konkretnog odgovora. Nakon što je potvrdio da razumije zadatak, AI model mi ipak nije isporučio ono što je obećao. Umjesto potpunog inventara svih mogućnosti, dao je odgovor koji je djelomično bio sastavljen kao pregled s primjerima. To se odmah vidjelo po formulacijama poput „primjerice”, što izravno znači da nije riječ o zatvorenom i potpunom popisu, nego o navođenju samo nekih mogućnosti. Dakle, već u prvom pokušaju odstupio je od vlastitog obećanja i od logike zadatka koji je prethodno točno protumačio.

Na moju primjedbu AI model je priznao pogrešku. Potvrdio je da je upotrebom riječi poput „primjerice” zapravo sam pokazao da nije dao inventar svih mogućnosti, nego samo uzorke iz šire skupine. To je važna točka jer ovdje nije riječ o sitnoj stilskoj pogrešci, nego o metodološkoj pogrešci. Ako korisnik izričito traži potpun popis, a model da niz primjera, tada odgovor više nije samo nepotpun nego i netočan u odnosu na postavljeni zadatak.

Druga jasna pogreška bila je izostavljanje Markdowna kao zasebnog formata isporuke. To sam ja morao detektirati i naknadno upozoriti model da njegov popis nije kompletan. AI model je zatim priznao da je to stvarna pogreška i objasnio da je Markdown pogrešno „utopio” u šire kategorije umjesto da ga navede kao zasebnu stavku. Time je dodatno potvrđeno da prvi odgovor nije bio potpun, iako je bio predstavljen kao da jest.

Zatim se pojavila još jedna važna slabost. Kada je pokušao ponovno definirati moj zahtjev, AI model je upotrijebio formulaciju „što potpunije”. I ta formulacija je pogrešna. „Što potpunije” ne znači isto što i „potpuno”. To znači da odgovor može biti vrlo opsežan, ali i dalje ne mora biti zatvoren, konačan i potpun inventar svih mogućnosti. I na to sam morao dodatno upozoriti. Tek nakon moje nove intervencije model je priznao da ni ta formulacija ne zadovoljava standard koji sam tražio.

Ovdje je posebno važno razumjeti da problem nije bio u tome što je zadatak bio nejasan. Naprotiv, zadatak je bio jasan od samog početka. AI model ga je razumio, točno ga interpretirao i jasno potvrdio da zna što treba napraviti. Unatoč tome, već na prvom stvarnom testu nije isporučio ono što je obećao. To znači da sam problem nije samo u mogućem nesporazumu između korisnika i modela, nego i u tome što model može pravilno razumjeti zahtjev, a zatim svejedno dati odgovor koji nije u skladu s tim zahtjevom.

To ruši povjerenje u kvalitetu rada s AI modelima, posebno kada korisnik traži nešto što sam ne zna provjeriti bez dodatnog znanja, iskustva ili vremena. Ako korisnik pita za potpuni popis mogućnosti, onda to radi upravo zato što taj popis ne zna. Ako mu AI model isporuči nepotpun odgovor, korisnik vrlo lako može ostati u uvjerenju da je dobio cjelovitu informaciju. Tu nastaje ozbiljan problem: korisnik ne zna da odgovor nije potpun, jer ne zna ni što sve nedostaje.

Upravo zato po meni ovdje nastaje najveći problem u radu s AI modelom: ne postoji stvarna sigurnost korisnika da je dobio 100% ispravan odgovor, a u ovom slučaju 100% kompletan popis mogućnosti. To ruši kvalitetu rada zato što korisnik kupuje uslugu AI modela da bi dobio nešto što ne zna, a AI model isporučuje nekompletan, dakle netočan odgovor, dok korisnik to u stvarnosti ne zna, jer logično, korisnik ne zna koliko ne zna.