Većem delu javnosti izgledalo je da se DeepSeek pojavio u januaru niotkuda sa softverom veštačke inteligencije otvorenog koda koji se mogao meriti sa modelima kompanija OpenAI i Google, a na čiji je razvoj navodno utrošeno mnogo manje para nego na razvoj konkurentskih modela.
Ljubitelji sajta po imenu Chatbot Arena su, međutim, na to samo slegli ramenima: oni su mesecima pratili i ocenjivali razvoj modela kineske kompanije koja stoji iza DeepSeeka.
Chatbot Arena je pokrenut početkom 2023. godine usred opšteg uzbuđenja koje je usledilo nakon lansiranja ChatGPT-ja nekoliko meseci ranije. Nastao je kao istraživački projekat Univerziteta Kalifornije, Berkli, (UC Berkley) u čijoj laboratoriji "sky computinga" (to je novi koncept koji se odnosi na globalno povezivanje različitih klaud platformi kako bi se omogućila interoperabilnost i lakši pristup računarstvu u oblaku, prim. prev.).
Opširnije

Kada veštačka inteligencija postane saveznik života
Lekari, istraživači i inženjeri širom regiona udružuju snage s veštačkom inteligencijom (engl. artificial intelligence – AI) kako bi promenili način na koji vidimo, razumemo i lečimo bolesti.
27.03.2025

Zašto investitori u AI ne treba da zanemare probleme sa autonomnim vozilima
Trebalo je da robotaksiji budu lakši deo procesa automatizacije. Neuspeh GM-a pokazuje koliko je ta industrija daleko od toga da ispuni nerealna obećanja
06.03.2025

Rani korisnici napuštaju Google pretragu u korist AI četbotova
Velika promena u načinu na koji ljudi pretražuju internet poremetila bi internet ekonomiju, predstavljajući veliki izazov za jednu od najvećih tehnoloških kompanija.
14.02.2025

Što napredniji AI modeli, to veći problemi za AI
Napredak u razvoju novih, najnaprednijih sistema veštačke inteligencije (AI) sporiji je nego što se očekivalo.
13.02.2025

Energetski 'Nju dil' Sama Altmana dobar je za veštačku inteligenciju. A za Amerikance?
Osnivač OpenAI-ja traži od Vašingtona da potroši stotine milijardi dolara na nove elektrane. Društvo takođe treba da ima koristi od toga.
15.01.2025
Sajt pruža pristup velikom broju najsavremenijih AI modela. Korisnici koriste četbotove koje pokreću ti modeli i utiču na njihovo rangiranje na listi tako što ocenjuju njihove performanse.
"Nezavisna treća strana koja je motivisana da iskreno ocenjuje napredak u AI prostoru imaće ključnu ulogu", kaže Wei-Lin Chiang, postdoktorand istraživač na UC Berkeley koji rukovodi sajtom Chatbot Arena.
"Svi tvrde da je njihov model najbolji. Zato su transparentnost i nezavisno mišljenje od velike pomoći."
Sajt Chatbot Arena brzo je postao popularan među ranim korisnicima i vodeći indikator u oblasti ocenjivanja AI-ja koji se brzo razvija: mesečno sajt poseti milion korisnika. I vodeće AI kompanije i nove firme u oblasti otvorenog koda koriste sajt kako bi testirali svoje nove modele. Pojedine kompanije čak postavljaju modele pre nego što ih zvanično lansiraju (kao što je to uradio Open-AI sa svojim GPT-40 prošlog proleća).
Ako sve dobro prođe, imate povod da se hvalite i čak, kao u slučaju DeepSeeka, možete postati prepoznatljivi na međunarodnom planu. Korisnici ChatBot Arene testirali su nekoliko modela otvorenog koda od kojih je svaki bio bolji od prethodnog.
DeepSeek je nedavno pokrenuo V3, veliki jezički model sličan onom koji pokreće ChatGPT, i R1, koji koristi više vremena za generisanje odgovora. Oni su se pojavili na Chatbot Areni krajem decembra, odnosno u januaru, i brzo su napredovali na tabeli.
U danima nakon lansiranja, u petak, R1 je skočio na treće mesto pretekavši 01, model kompanije Open AI koji koristi sličan način rezonovanja. Aplikacija DeepSeekovog četbota dospela je u sam vrh lista popularnih proizvoda u prodavnicama mobilnih aplikacija, pa tako i liste Appleove prodavnice aplikacija App Store na američkom tržištu tog vikenda, i liste Google Play Storea nekoliko dana kasnije.
Istaknute ličnosti poput investitora rizičnog kapitala Marca Andreessena i izvršnog direktora OpenAI Sama Altmana su pohvalili ovaj model. Tog ponedeljka investitori su otpisali jedan bilion tržišne vrednosti akcija tehnoloških kompanija u SAD i Evropi pošto je pojava DeepSeeka otvorila pitanje da li je tehnološka industrija nepotrebno mnogo para uložila u AI infrastrukturu.
Rukovodioci Chatbot Arene, Chiang i Anastasios Angelopoulos, koji je takođe postdoktorand na UC Berkeley, nisu bili iznenađeni. "Zaista ne iznenađuje to što je ovakav model dospeo u sam vrh", kaže Angelopoulos. "Ekosistem će nastaviti da se razvija. Za mesec dana na tom mestu neće biti DeepSeek-R1, već neki drugi model."
Chatbot Arena nije jedini projekat koji pruža javni pristup tehnikama i parametrima ocenjivanja AI-ja. U projektima poput SWE-Bench ili Humanity’s Last Exam ocenjuje se sposobnost najnaprednijih AI modela da obavljaju različite zadatke, poput odgovaranja na pitanja u vezi sa matematikom ili kodiranjem, ili rešavanja nekih od najtežih problema za koje čovečanstvo zna. Ta oblast nije standardizovana u većoj meri i nijedna zvanična grupa ne nadzire metode testiranja modela. Toliko se brzo napreduje na tom polju da bi zbog novih modela postojeće metode ocenjivanja mogle ubrzo postati zastarele. (Sećate li se Turingovog testa?) (Britanski matematičar i pionir veštačke inteligencije Alan Turing je 1950. godine osmislio test kako bi se ocenila sposobnost mašine da oponaša ljudski način razmišljanja, prim. prev.).
Chatbot Arena pruža uvid u to kako zaista izgleda kada se koristi neki proizvod. "Osećaj je jedan način da se to opiše; drugi način je testiranje u praksi", kaže Chiang. "Ako ste OpenAI koji pravi ChatGPT, stalo vam je do iskustva vaših korisnika."
Od početka februara na Chatbot Areni je bilo postavljeno ukupno više od 200 modela, uključujući modele kompanija Anthropic, Google, Meta Platforms, OpenAI i xAI.
Od toga je 90 modela moglo da se isproba. Kompanije obično uspostavljaju saradnju sa Chatbot Arenom kako bi svoje modele postavile na sajt i plaćaju troškove koje snose korisnici dok isprobavaju modele.
Sajt je otvorenog tipa i njegovi podaci i kod su dostupni drugima. Finansira se iz donacija, poput grantova firmi rizičnog kapitala Andreessen Horowitz i Sequoia Capital. Pošto je reč o univerzitetskom istraživačkom projektu, studenti UC Berkeley uglavnom održavaju Chatbot Arenu u funkciji.
Korisnike u iskačućem prozoru dočekuje obaveštenje da je sajt istraživački projekat. Zatim dobijaju uputstva da postave pitanje dvama anonimnim četbotovima i da izaberu zatim onaj koji im se najviše sviđa. Posle glasanja objavljuju se imena oba četbota. Ti glasovi se koriste za ocenjivanje snage modela; to je nešto poput sistema Elo za rangiranje šahista u okviru koga se šahisti rangiraju na osnovu rezultata u međusobnim mečevima.
Do sada je zabeleženo 2,6 miliona glasova korisnika koji su se izjašnjavali o svom omiljenom jezičkom modelu. Korisnici se ne loguju tako da članovi tima Chatbot Arene ne znaju ko su oni. Tim klasifikuje upite koje korisnici obično postavljaju četbotovima. Posebno su popularna pitanja u vezi sa programiranjem i kreativnim pisanjem, a tu su i upiti poput "napiši mi pesmu u stihovima sa opkoračenjem kako bi se stvorio osećaj kretanja i napetosti; pesma treba da bude o jabukama".
Rangiranje na Chatbot Areni često deluje kao konačan pokazatelj. U stvari, tu se meri nešto vrlo određeno: mere se reakcije korisnika Chatbot Arene (grupa ljudi koji uglavnom imaju akademsko obrazovanje ili takva interesovanja, i koje interesuju oblasti poput mašinskog učenja). Sistem rangiranja je "zaista kul i volimo da ga koristimo, ali on ne daje odgovore na pitanja poput da li je ovaj model pogodan za korišćenje? Da li se može lako primeniti u preduzeću?", kaže Nick Frosst, jedan od osnivača kompanije Cohere, koja pravi AI modele i prilagođava ih poslovnim potrebama.
Postoji i bojazan da bi rejtinzima moglo da se manipuliše. U radu objavljenom na Arxivu, javnoj arhivi istraživanja koja nisu prošla kroz proces stručne recenzije, istraživači su simulirali nameštanje glasanja kako bi ukazali na moguće slabosti Chatbot Arene. Angelopoulos i Chiang kažu da je sajt na više načina zaštićen od zloupotreba. Do sada nije bilo dokaza da je sajt uspešno napadnut, kaže Angelopoulos.
Chiang, Angelopoulos i njihovi saradnici usredsređeni su na to kako da unaprede interakciju sa zajednicom Chatbot Arene dok istovremene uvode nove vrste testiranja. Počeli su da podržavaju druge vrste AI modela, uključujući one koji služe generisanju slika. S obzirom na to koliko su pažnje privukli, istraživači ne isključuju mogućnost da to preraste u poslovni poduhvat. "Definitivno razmišljamo o tome", kaže Chiang.