U svetu AI-ja (engl. artificial intelligence - veštačka inteligencija) mali jezici imaju isti problem. Skoro niko ih ne smatra dovoljno važnim da bi u njih ozbiljno ulagao. Region verovatno neće napraviti novi ChatGPT, ali mogao bi da napravi nešto što velikim AI kompanijama često nije naročito važno - modele koji zaista razumeju lokalni jezik, dokumenta i kontekst.
Iz te ideje nastali su BalkanBench i ModernBERTić - projekti kompanije Recrewty, iza kojih stoji suosnivač Mitar Perović. Reč je o pokušaju da se napravi regionalna AI infrastruktura za srpski, hrvatski, bosanski i crnogorski jezik - od modela za razumevanje teksta do sistema za njihovo merenje i poređenje.
"Za mala jezička tržišta poput naših nije isplativo praviti novi ChatGPT od nule. To je igra kapitala, podataka i infrastrukture u kojoj dominiraju SAD i Kina: samo u 2025. privatne AI investicije u SAD bile su oko 200 milijardi dolara. Tu Srbija i region realno ne mogu da konkurišu frontalno", kaže Perović za Bloomberg Adriju. "Ali jeste isplativo razvijati lokalne i specijalizovane manje modele: modele za razumevanje srpskog, crnogorskog, hrvatskog i bosanskog, za pretragu dokumenata, klasifikaciju, pravne i administrativne tekstove, CV-jeve, medijski monitoring, proveru činjenica, javnu upravu i korisničku podršku."
Opširnije
Kanađani preuzimaju 90 odsto nemačkog AI ponosa
Nemački startap za veštačku inteligenciju Aleph Alpha GmbH imao je sva obeležja evropske priče o uspehu, a danas se suočava s previše predvidljivim krajem - preuzimanjem od strane većeg severnoameričkog rivala.
pre 20 sati
Jovanović: Novi Sad dobija data centar, u planu saradnja sa Mistral AI na razvoju LLM-a
"Odabrali smo Mistral AI, francuski model. Treći superkompjuter razvija se upravo u toj saradnji i zasniva se na NVIDIA čipovima. Formirali smo tim koji će Mistralov model prilagoditi srpskom jeziku", kaže Jovanović.
13.05.2026
AI podiže cenu svega: od čipova i struje do telefona i konzola
Tehnološki giganti troše stotine milijardi dolara na AI infrastrukturu, dok se zbog nestašica čipova i poskupljenja memorije troškovi prelivaju na potrošače.
12.05.2026
Koji će stručnjaci zavladati tržištem rada u doba AI-ja
Dok algoritmi preuzimaju rutinske zadatke, kompanije ubrzano traže stručnjake za AI bezbednost, nadzor, kontrolu podataka i upravljanje rizicima.
13.05.2026
Drugim rečima, nije isplativo praviti "najveći model", ali jeste isplativo praviti najbolji model za konkretan lokalni problem. "Na primer, za tumačenje CV-ja kandidata ne treba vam model koji poseduje i doktorsko znanje iz medicine", kaže sagovornik Bloomberg Adrije.
Sam Recrewty osnovali su kao HR tehnološki startap koji stoji na stubovima AI-ja i bihejvioralnih nauka, a dobijanjem granta Fortissimo Plus od EU obezbedili su računarsku infrastrukturu i finansije da krenu u razvoj svojih modela za razumevanje teksta. Razlog je jednostavan - postojeći jezički modeli za ovdašnje jezike bili su ograničeni brojem reči koje mogu da obrade, kao i zastarelim arhitekturama.
Šta su zapravo ModernBERTić i BalkanBench?
Iako javnost AI uglavnom povezuje sa četbotovima poput OpenAI-ja ili Gemini-ja, ModernBERTić pripada drugoj kategoriji modela - takozvanim enkoder modelima.
To znači da nije namenjen generisanju odgovora poput ChatGPT-ja, već razumevanju teksta: klasifikaciji dokumenata, semantičkoj pretrazi, ekstrakciji informacija ili analizi sadržaja. Upravo ti sistemi često predstavljaju "nevidljivu infrastrukturu" savremene AI ekonomije.
"ModernBERTić je prvi moderni enkoderski jezički model sa 16 puta većim kapacitetom obrade teksta i savremenom arhitekturom, treniran nad najvećim skupom podataka za srpski, crnogorski, bosanski i hrvatski jezik, od 60 milijardi tokena (otprilike 40 milijardi reči u korpusu)", kaže Perović.
Mitar Perović/Lična arhiva
Međutim, na početku razvoja uočio je dva dodatna problema:
-
Nedostatak "benchmarka" za evaluaciju ovakvih modela za ove jezike;
-
Nepostojanje javnog "leaderboarda" sa svim dostupnim modelima za regionalne jezike i njihovim rangiranjem.
"Upravo odatle nastala je i vizija BalkanBencha, ideja da postoji 'open-source' mesto kojem svako može pristupiti i koje može koristiti, kao i proširiti, i podatke i kod za evaluaciju AI modela za naše jezike. Vremenom će balkanbench.com biti sajt na kojem ćete moći da vidite koji sve modeli postoje i koliko su dobri na različitim zadacima za srpski, crnogorski, hrvatski i bosanski jezik", najavljuje sagovornik.
A svako ko se ovde imalo služio generativnim AI četbotovima mogao je da primeti koliko greše na lokalnim jezicima, pa su dezinformacije i halucinacija neretka pojava. I upravo je to problem koji pokušava da reši BalkanBench. "Danas često kažemo da modeli 'loše rade' na srpskom ili regionalnim jezicima, ali bez javnog 'benchmarka' to ostaje na nivou utiska. BalkanBench uvodi merljiv i otvoren način da uporedimo modele za srpski, hrvatski, bosanski i crnogorski."
Trenutno ne postoji ažurirana tabela sa novim modelima i rezultatima i to je sledeći korak za BalkanBench - dodavanje evaluacionih korpusa za LLM-ove i sistematsko testiranje trenutno dostupnih modela, nakon čega će rezultati biti javno objavljeni na 'leaderboardu'.
"Cilj je da više ne nagađamo koji model najbolje radi na našim jezicima, već da to možemo izmeriti. Lokalni modeli mogu da smanje problem halucinacija i dezinformacija, ali ne sami od sebe. Njihova najveća vrednost je kada se koriste zajedno sa kvalitetnim lokalnim podacima, pretragom, proverljivim izvorima i jasnom evaluacijom. Tu modeli poput ModernBERTić-a mogu biti veoma korisni, jer nisu zamišljeni kao četbot koji 'izmišlja odgovor', već kao infrastruktura za razumevanje, pretragu, klasifikaciju i rangiranje dokumenata na našim jezicima", pojašnjava.
BalkanBench je, dakle, primarno otvorena infrastruktura, i baš je to ključna reč, kaže on - "infrastruktura", kao poziv na kolaboraciju i prvi korak ka viziji da se razvije unificirano mesto za poređenje svih AI modela za regionalne jezike. "Ovo je zapravo deo infrastrukture koji mora postojati i jedino može nastati kao regionalni kooperativni poduhvat. Bazni ModernBERTić model je objavljen javno i svi imaju priliku da ga koriste i uvere se u njegove performanse. U okviru firme razvili smo specijalizovane modele nad baznim ModernBERTić modelom, prvo za semantičku pretragu, a zatim za HR domen, koje nudimo klijentima i partnerima, kao i direktno kroz nove funkcionalnosti naše HR platforme koje ranije nisu bile izvodljive."
Model je stoga namenjen prvenstveno firmama i institucijama kojima je bitna privatnost podataka i koje ne žele da dele svoje podatke sa stranim provajderima. "Naši modeli za semantičku pretragu neophodan su deo infrastrukture za sve domaće e-commerce sajtove, dok su zanimljiva primena i sajtovi javne uprave, gde pretraga ne funkcioniše najbolje. Svi slučajevi ekstrakcije informacija, klasifikacije dokumenata i pretrage mogu se unaprediti pomoću ModernBERTić modela."
Kao prednosti takvih modela ističe to što kroz specijalizaciju postaju jeftini za korišćenje i veoma brzi pri obradi podataka. Nisu potrebni specijalizovani hardver ni velika ulaganja da bi ih neko koristio, što nije slučaj sa velikim jezičkim modelima, dodaje.
'Region mora da razvija zajedničku AI infrastrukturu'
Sagovornik napominje da tehnološka zavisnost u AI eri nije ista stvar kao zavisnost od, recimo, stranog softvera za kancelarijski rad. "Jezički modeli postaju sloj kroz koji ljudi pristupaju informacijama, donose odluke, uče i rade. Ako taj sloj u potpunosti kontrolišu strane kompanije, onda one indirektno oblikuju i to kako naša deca uče, kako naše institucije komuniciraju i čija se verzija istorije i kulture smatra 'tačnom'."
Druga dimenzija je ekonomska. "Svaki API poziv ka stranom modelu znači odliv kapitala, podataka i znanja. Kompanije i institucije koje danas grade proizvode na tuđoj infrastrukturi sutra će biti prepuštene na milost i nemilost cenovnim politikama, geopolitičkim odlukama i licencnim ograničenjima kompanija koje ih ne smatraju prioritetom."
Ipak, to znači da svaka zemlja treba da pravi sopstveni ChatGPT, ali Perović smatra da mora imati kontrolu nad ključnim slojevima: podacima, evaluacijom, lokalnim modelima i infrastrukturom.
Depositphotos
"AI sve više postaje infrastruktura, nešto poput 'nove električne struje', sloj inteligencije preko kojeg će se menjati javna uprava, obrazovanje, zdravstvo, mediji, finansije i mnoge druge industrije. Ako naši jezici, dokumenti, biblioteke, javni servisi i arhive ne budu digitalizovani i uključeni u taj ekosistem, rizikujemo da deo naše kulturne baštine u digitalnoj infrastrukturi bliske budućnosti postane nevidljiv. Zato region ne samo da može, nego mora da razvija zajedničku AI infrastrukturu. Pojedinačno smo mala tržišta, ali zajedno činimo tržište od blizu 20 miliona govornika srodnih jezika. To ne mora da znači jedan veliki regionalni centar podataka, već zajedničke korpuse, benchmarke, modele i standarde evaluacije", kaže.
Srbija, prema njegovoj oceni, ima realne temelje za razvoj ozbiljnog AI sektora, pre svega zbog jakog inženjerskog potencijala i kvalitetnog STEM obrazovanja. I mada to jeste važan deo jednačine, nije dovoljan sam po sebi. "Za ozbiljan AI ekosistem potrebni su još i kvalitetni podaci, računarska infrastruktura, istraživačka zajednica, kapital i konkretni proizvodi koji mogu da se koriste u industriji. Srbija već ima važan infrastrukturni osnov kroz Nacionalnu AI platformu u Kragujevcu. Do kraja 2026. planirana je i dodatna faza sa 640 NVIDIA GraceHopper superčipova i Mistral AI softverskim stekom i modelom, što je inicijativa i vest za svaku pohvalu."
Perović priznaje da iako neće pobediti Anthropic, OpenAI ili Google DeepMind u veličini modela, mogu raditi na tome da naprave najbolju infrastrukturu za srpski, hrvatski, bosanski i crnogorski jezik. "Projekti poput BalkanBench-a i ModernBERTić-a upravo su korak u tom smeru. Ali treba biti realan oko razmera. ModernBERTić sam trenirao na evropskom Leonardo superračunaru, na 64 A100 GPU-a, što pokazuje da i ovakav zahvat iziskuje ozbiljne računarske resurse. U poređenju sa originalnim kapacitetom kragujevačkog centra od 32 A100 GPU-a, to je dvostruko više nego cela tadašnja lokalna GPU infrastruktura. Zato Srbija i region ne treba da pokušavaju da konkurišu najvećim svetskim igračima u pravljenju najvećih generativnih modela."
Šansu vidi u sloju koji veliki sistemi često zanemaruju: lokalni jezici, lokalni dokumenti, javna uprava, pravo, mediji, e-commerce, HR i pretraga. "Tu možemo da budemo konkurentni jer bolje razumemo kontekst, podatke i realne probleme tržišta."
Šta je sledeća faza
Na pitanje šta bi za njih bio pokazatelji da su BalkanBench i ModernBERTić uspeli, Perović kaže da je ideja da svako ko poseduje skup podataka za evaluaciju AI modela može samostalno proširiti BalkanBench i dodati svoj kod i podatke. U tom smislu, uspeh BalkanBencha ogledao bi se u regionalnoj kolaboraciji i doprinosu većeg broja ljudi. Recrewty sponzoriše hardverske resurse za evaluaciju, kao i tokene za API pozive, te pozivaju i ostale kompanije da se uključe u inicijativu.
"U idealnom slučaju, u daljoj budućnosti BalkanBench bi bio finansiran i od strane država, a vlasništvo i odgovornost preneti na nadnacionalnu AI organizaciju", kaže.
Depositphotos
Za ModernBERTić napominje da su ga kroz eksperimente za svoje potrebe u HR domenu već evaluirali i spremaju ga za produkciju u okviru svoje glavne platforme. "Uspeh bi bila šira adopcija modela na Balkanu, a trenutni broj preuzimanja na Hugging Faceu od preko 2.000 ukazuje na pozitivan trend."
Već od početka rada na ModernBERTić-u vizija mu je, kako ističe, bila šira od jednog enkodera. Cilj je mali jezički model (SLM) koji odlično razume jezike, kao i kulturu našeg regiona, a koji svako može pokrenuti lokalno na svom laptopu, bez skupe infrastrukture i bez oslanjanja na strane API-je.
"Skup tekstualnih podataka koji sam agregirao za ModernBERTić biće temelj za sledeću fazu: kontinualni trening najboljih javno dostupnih generativnih modela. U prvoj fazi modelu se sistematski prenosi znanje o kulturi, jeziku i istoriji našeg podneblja. Zatim, kroz 'post-training' nad specijalizovanim skupovima podataka, model se rafinira i smanjuje pojavu halucinacija i grešaka. BalkanBench je ovde ključan, jer bez kvalitetne evaluacije nema ni objektivnog napretka. Krajnji cilj je model koji u zadacima razumevanja BCMS-a i regionalnog konteksta nadmašuje opšte modele, a koji ne zavisi od toga da li velike kompanije naš jezik smatraju vrednim ulaganja", zaključuje sagovornik.