Da li bi vlade trebalo da moderiraju sadržaj na internetu? Neki ljudi kažu "da", naglašavajući bezbednost. Drugi kažu "ne", dajući prednost slobodi govora. A neki najviše brinu o tačnosti informacija. Sve te perspektive su validne, ali nijedan jedinstveni model odgovora ne može zadovoljiti sve, smatra Ilija Bogunović, docent za veštačku inteligenciju i mašinsko učenje na Univerzitetskom koledžu u Londonu (UCL).
Da bismo zaista modelovali složenost ljudskih vrednosti i ciljeva, kaže Bogunović na konferenciji "Sustainable Strategies" Bloomberg Adrije, moramo da treniramo modele koristeći podatke koji odražavaju različite poglede.
Kako kaže, standardna procedura za usklađivanje velikih jezičkih modela je jednostavna. "Počinjemo sa prethodno istreniranim LLM-om (engl. large language model) koji je treniran na velikoj količini podataka da bi 'naučio' jezik, a zatim ga dodatno treniramo da bi bio korisniji i bolje usklađen sa ljudskim vrednostima."
Bloomberg Adria / Velibor Gajović
Međutim, naglašava, ovaj pristup ima probleme. "Prvi je to što je skaliranje kvalitetnih podataka veoma ograničeno. Velike kompanije troše milione dolara mesečno kako bi prikupile što više podataka."
Drugi problem je taj, dodaje, što se modeli uglavnom treniraju prema "prosečnim" vrednostima, zanemarujući raznolikost među ljudima.
"Da bismo se uhvatili ukoštac s tim, možemo pogledati dominantnu tehnologiju za usklađivanje modela: RLHF - ojačano učenje iz ljudskih povratnih informacija. Prikupljaju se ljudske preferencije - ljudi upoređuju odgovore modela i biraju koji im se više sviđa. Ti podaci se koriste za treniranje modela nagrađivanja, koji predviđa ljudske preferencije."
Taj model nagrađivanja se koristi da se podešavaju parametri LLM-a kako bi maksimizovao tu "nagradu", ističe on.
"Ovo je standardni pristup koji koristi ChatGPT za usklađivanje, ali je daleko od savršenog. Kao što sam već pomenuo, postoji veliki problem sa podacima. Zatim, modeli nagrađivanja su često nepouzdani i mogu pojačavati postojeće pristrasnosti. I konačno, mnogi metodi optimizuju samo jedan model nagrađivanja, ignorišući bogatstvo ljudskih vrednosti i ciljeva."
Bloomberg Adria / Velibor Gajović
Kako onda dalje
Klasičan odgovor je: sve skaliraj. "Veći modeli, više podataka, više energije, više računarske snage. To jeste jedan put, ali nije održiv."
To je pristup Bogunovićevog tima - gledaju na problem kao na sistemsko učenje modela nagrađivanja kroz aktivnu interakciju.
Što se tiče pluralizma, Bogunović kaže kako trenutni modeli pokušavaju da se "optimizuju za prosečnog čoveka".
"Kako ovi modeli postaju moćniji, moraju biti ne samo pametni već i pouzdani, zaista usklađeni s ljudskim vrednostima – a istovremeno štedljivi po pitanju energije i resursa", zaključuje.
Trenutno nema komentara za vest. Ostavite prvi komentar...