Kineski startap DeepSeek je, sudeći po njihovoj najavi na mreži, započeo malu revoluciju u proizvodnji novih modela učenja za sisteme veštačke inteligencije (AI). Njihov novi model, DeepSeek-R1 i DeepSeek-R1 Zero, 98 odsto je jeftiniji od modela koji se razvijaju na Zapadu, prema izveštaju koji je kompanija objavila na internetu. Rečeno je da njihova proizvodnja košta manje od šest miliona dolara, dok, prema rečima izvršnog direktora Antropika Darija Amodeija, slični sistemi u inostranstvu koštaju do stotinu puta više.
Prema mišljenju stručnjaka, novi model je skoro u rangu sa OpenAI 4o modelima i bolji je od, recimo, modela koji razvija Meta. Ono što je najneobičnije jeste da je kod DeepSeeka otvoren, što znači da u teoriji svako može da ga prisvoji i dopuni po sopstvenoj želji. Zašto je DeepSeek to uradio još nije jasno, ali će to umnogome pokvariti nedelju OpenAI-ju i drugima koji kriju svoj kod i naplaćuju više za korišćenje njihovih kapaciteta.
Nakon istraživanja OpenAI-ja i DeepSeeka, vidimo da je korišćenje API-ja i njihovih mogućnosti takođe mnogo jeftinije kod kineskog provajdera. Mnogi korisnici na platformi X su, takođe, napisali da su preuzeli lokalne varijante DeepSeeka (mini) na svojim računarima koji nisu baš vrhunski, i ispostavilo se da rade. Marc Andreessen, jedan od najpoznatijih investitora u Silicijumskoj dolini, oglasio se na X-u.
Opširnije
Tržišta u crvenom - šta se dešava na berzama?
Visokovrednovane akcije gube na vrednosti. Da li je kineski DeepSeek uzrok tih potresa?
27.01.2025
Finansijska direktorka OpenAI-ja: Muskova tužba je 'pravni rat' protiv konkurencije
IPO bi mogla OpenAI-ju da omogući pristup novim vidovima finansiranja.
22.01.2025
SAD Srbima ograničavaju uvoz Nvidijinih čipova
Srbija se suočava sa ograničenjima pristupa naprednim AI čipovima zbog novih američkih izvoznih pravila.
17.01.2025
Energetski 'Nju dil' Sama Altmana dobar je za veštačku inteligenciju. A za Amerikance?
Osnivač OpenAI-ja traži od Vašingtona da potroši stotine milijardi dolara na nove elektrane. Društvo takođe treba da ima koristi od toga.
15.01.2025
Kako su Kinezi uspeli da naprave tako uspešan model? Ako pratimo njihovu najavu u trenutku objavljivanja, oni su na trećoj stranici objave napisali da su koristili samo učenje sa pojačanjem, bez nadzora, da bi postigli željeni rezultat. Vrlo jednostavno, to znači da programeri nisu sami ispitali procese razmišljanja u procesu pronalaženja rešenja. Tradicionalno, kada su razvijali nove LLM modele, programeri su "nagrađivali/kažnjavali" svaki korak koji je modelu bio potreban, da bi došao do rešenja. Dakle, ljudi bi kažnjavali model ako je napravio grešku u koracima/procesu i nagrađivali su ga ako je korak bio ispravan. Na taj način su ga vodili ka cilju postizanja pravog rešenja.
Inovativna (i pre svega hrabra) metoda
Metod DeepSeeka je bio direktniji - model su nagrađivali samo za tačno rešenje/odgovor, a sam proces je birao model, čime je smanjen broj koraka koje je trebalo nadgledati. Ali činjenica da je model 99,9 odsto izgrađen samo pomoću učenja predstavlja neosporan napredak.
U izveštaju se navodi da model ima problem sa dužim razgovorima, više jezika i da ponekad odgovori nisu čitljivi. Ne govore mnogo o halucinacijama, ali priznaju da se dešavaju. Zato će sada ovaj model dopuniti svojevrsnom hibridnom metodom, gde će kroz model rešavati problem zamišljanja i pronalaženja pravih rešenja - kada sam model to ne može.
Kako su dobili računarske kapacitete
Nedelju dana nakon lansiranja novog modela, koji je već imao i nastaviće da ima značajan uticaj na akcije tehnoloških kompanija širom sveta, ima još mnogo nepoznanica. The Wall Street Journal je pobliže pogledao njihovu procenu da ceo proces košta samo šest miliona dolara. "DeepSeek je u tehničkom izveštaju rekao da je koristio više od 2.000 Nvidijinih čipova za obuku svog V3 modela, u poređenju sa desetinama hiljada čipova za obuku modela slične veličine. Neki američki stručnjaci za veštačku inteligenciju nedavno su doveli u pitanje da li High-Flyer i DeepSeek pristupaju računarskoj snazi izvan onoga što je zvanično dostupno", napisali su.
Za sam startap DeepSeek u "MiT Tech Review" kažu sledeće: "Kineski medij 36Kr procenjuje da kompanija ima više od deset hiljada Nvidijinih naprednijih čipova na zalihama, dok Dylan Patel, osnivač istraživačke konsultantske kuće AI SemiAnalysis, procenjuje da imaju najmanje 50.000".
Svi ovi čipovi, i H100 Nvidije, navodno su nabavljeni pre nego što su sankcije zaista stupile na snagu. Dakle, cena razvoja novog modela je verovatno mnogo veća, ali kineske kompanije ne žele da otkriju svoja ulaganja u moćne čipove, jer bi to moglo da ugrozi dodatni tok prihoda, koji je za njih ionako ograničen.
Sankcije zahtevaju prilagođavanje
"Kontrole izvoza su u suštini saterale kineske kompanije u ćošak, tako da moraju da budu mnogo efikasnije sa svojim ograničenim računarskim resursima", kaže Matt Sheehan, istraživač veštačke inteligencije u tink-tenk organizaciji Carnegie Endowment for International Peace. "Verovatno ćemo videti veliku konsolidaciju u budućnosti, vođenu nedostatkom računarske snage", dodaje. To je veoma važna izjava.
Liang Wenfeng, osnivač DeepSeeka, rekao je nešto slično kada je za kineske medije pričao o rešenjima koja traže.
I to je ono što se zasad zna o novom Sputniku. Cena je verovatno mnogo veća nego što DeepSeek priznaje, ali njihovo rešenje je revolucionarno i probija nevidljivi zid sporog mašinskog učenja i, što je najvažnije, čini ovo rešenje dostupnim celom svetu.
Sputnik je bio katalizator
"Iako ostaje da se vidi da li će se DeepSeek pokazati kao održiva i jeftinija alternativa na duži rok, početna zabrinutost je usredsređena na to da li je moć cena američkih tehnoloških giganata ugrožena i da li njihova ogromna ulaganja u AI treba ponovo da se procene", kaže za Bloomberg Jun Rong Yeap iz IG Asia.
Korisnici novog modela su takođe primetili da (Sputnik) odbija da odgovori na osetljiva politička pitanja o Kini i lideru Xiju Jinpingu. U nekim slučajevima, proizvod daje odgovore u skladu sa zvaničnom propagandom Pekinga, umesto da uključuje perspektivu vladinih kritičara, kao što to čini ChatGPT. Na primer, od DeepSeeka nećete dobiti prave odgovore na pitanja o trgu Tiananmen. Ali, s obzirom na to da je to rešenje otvorenog koda, ovo se može popraviti i prilagoditi lokalnom okruženju u bilo kom trenutku.
Šta to znači za sve investicije
Iste nedelje kada je DeepSeek predstavio svoj novi model, SAD su pokrenule projekat Stargate, koji će obezbediti 500 milijardi dolara za razvoj novih centara podataka i razvojnih centara AI. Ako pratimo razvoj veštačke inteligencije, onda nam ovo govori da će AI tek sada otići u nebesa. Sputnik je poleteo u svemir 1957. godine, a samo 12 godina kasnije sleteli smo na Mesec. Ako smo mislili da će implementacija AI u punom kapacitetu trajati još mnogo godina, kineski programeri su to vreme skratili. Tu misao je najbolje izrazio Jim Fan, jedan od poznatijih Nvidijinih istraživača:
"Mnogi stručnjaci su u panici kako DeepSeek može da uspe sa tako malim budžetom. Ja to vidim drugačije - sa ogromnim osmehom na licu. Zašto nismo srećni zbog poboljšanja zakona o skaliranju? DeepSeek nedvosmisleno dokazuje da je moguće stvoriti povećanje kapaciteta inteligencije po desetostruko nižoj ceni, što znači da ćemo dobiti deset puta moćniji AI sa računarom koji imamo danas ili gradimo za sutra. Jednostavna matematika!"
Sva ulaganja u izgradnju kapaciteta biće još potrebnija, jer će mnoge zemlje, pa čak i EU, sada moći da izgrade sopstvene modele veštačke inteligencije i prilagode ih sopstvenim potrebama za delić troškova razvoja. Savremeni Sputnik je započeo trku, ali će pobednik biti onaj koji ima najviše kapaciteta i energije da ga napaja.