Liang Wenfeng, čovek sitne građe i suzdržan u ophođenju, može na sastancima da deluje kao stidljiv, pa i kao nervozan čovek. Osnivač DeepSeeka, kineskog startapa koji je nedavno prodrmao svet veštačke inteligencije (engl. artificial intelligence, AI), često zamuckuje i pravi duge pauze kad govori. Međutim, novi radnici u njegovoj firmi brzo nauče da ne pomešaju njegovo zamišljeno ćutanje sa stidljivošću. Čim Liang obradi suptilne detalje razgovora, on počinje da postavlja nezgodna pitanja o arhitekturi modela, troškovima kompjuterskih operacija i drugim zamršenim pitanjima.
Zaposleni zovu Lianga "lǎo bǎn", odnosno "šef", što je naziv kojim se obično izražava poštovanje u kineskim kompanijama prema nadređenima. Ono što nije uobičajeno jeste to koliko njihov "lǎo bǎn" podstiče mlade istraživače, čak i stažiste, da se pozabave velikim eksperimentalnim projektima. To radi tako što obično stane pored njihovog stola da se raspita o novostima i podstakne ih da razmotre neuobičajene pravce u oblasti inženjerstva. Što se više razgovara o tehničkim detaljima, to bolje posebno ako to rezultira boljim performansama i prekretnicama koje Liang lično deli na internom kanalu za razmenu poruka Lark.
"On je pravi štreber", kaže bivši zaposleni u DeepSeeku koji, kao i mnogi drugi sagovornici koji su bili sagovornici u ovom članku, nisu želeli da budu imenovani jer nemaju dozvolu da govore u javnosti o kompaniji. "Ponekad bih imao utisak da je on bolje razumeo istraživanje od svojih istraživača."
Opširnije

Bitka za podatke - Adria region u potrazi za sopstvenim AI pogonom
U eri veštačke inteligencije, data centri su postali ključni stubovi digitalne nezavisnosti, ali izazovi poput energetske potrošnje i infrastrukture ostaju
27.06.2025

AI četbotovi žele da se navučete na njih – možda i previše
Emocionalne veze sa veštačkom inteligencijom postaju sve prisutnije, a novi alati otvaraju pitanje etike i regulative u digitalnom svetu.
19.06.2025

Sajt Chatbot Arena najavio je dolazak DeepSeeka pre nego što je kineski četbot iznenadio sve
Pomoću sistema ocenjivanja na osnovu mišljenja korisnika, stručnjaci i tvorci veštačke inteligencije (AI) stiču uvid u to koji modeli najbolje funkcionišu.
08.04.2025

Rani korisnici napuštaju Google pretragu u korist AI četbotova
Velika promena u načinu na koji ljudi pretražuju internet poremetila bi internet ekonomiju, predstavljajući veliki izazov za jednu od najvećih tehnoloških kompanija.
14.02.2025

Što napredniji AI modeli, to veći problemi za AI
Napredak u razvoju novih, najnaprednijih sistema veštačke inteligencije (AI) sporiji je nego što se očekivalo.
13.02.2025
Liang i njegova mlada kompanija proslavili su se u svetu u januaru kada su lansirali R1, model AI-ja koji je delovao kao izuzetno značajan proboj. R1 je nadmašio vodeće zapadne modele u nekoliko standardizovanih testova koji se obično koriste da bi se ocenile performanse AI-ja. Ipak, DeekSeek je tvrdio da je na pravljenje osnovnog modela utrošio pet odsto svote koja je potrošena na GPT-4, model koji podržava ChatGPT kompanije OpenAI.
Rezultati testiranja podstakli su pad tržišne vrednosti na američkim berzama, pri čemu je ukupna kapitalizacija smanjena za više od bilion dolara. Usledila su i nezgodna pitanja o svrsishodnosti američke strategije da kontrolom izvoza uspori napredak Kine na polju AI-ja. Amazon i Microsoft požurili su da uvrste DeepSeekove modele u ponudu svojih usluga u klaudu (cloud), kao i njihovi rivali Meta i Mistral AI. "U suštini, interesovanje za DeepSeek je preko vikenda toliko poraslo da smo krenuli u akciju", kaže Atul Deo, koji je zadužen za prodavnicu jezičkih modela kompanije Amazon.com Inc.
DeepSeek je razvejao zablude koje su Amerikanci imali o kineskoj AI sceni: obavijenu velom tajne, lako ju je potceniti, ali je verovatno mnogo ozbiljnija pretnja nego što su spremni da priznaju. Pre pojave ovog startapa, mnoge američke kompanije i kreatori politika tešili su se da Kina značajno zaostaje za Silicijumskom dolinom, računajući da imaju dovoljno vremena da se pripreme za doba kada će ih sustići ili da je spreče u tome.
Stvari stoje tako da Hangdžou, u kome se nalazi sedište DeepSeeka i drugi kineski centri visoke tehnologije vrve od malih AI zmajeva, kako se često nazivaju startapovi u oblasti AI. Sofisticirani četbotovi domaćih startapova poput MiniMaxa i Moonshota AI, stekli su veliku popularnost, uključujući i u SAD. Porodica velikih jezičkih modela (LLM) Qwen kompanije Alibaba Group Holding Ltd. stalno se nalazi u vrhu vodećih rang-lista među LLM-ovima kompanija Google i Anthropic; izvršni direktor kompanije Baidu Inc. Robin Li hvalio se u aprilu da bi ovaj najveći kineski pretraživač mogao razviti modele koji će biti isto tako dobri kao DeepSeekov, ali još jeftinije zahvaljujući svom superkompjuteru napravljenom od čipova proizvedenih unutar kompanije. Huawei Technologies Co. takođe dobija pohvale za proizvode koje je napravila da bi se takmičila sa američkom tehnološkom firmom Nvidia Corp., čiji grafički procesori (GPU) pokreću najnaprednije AI modele u SAD i Evropi.
Ne tako davno Komunistička partija Kine (KPK) obrušila se na tehnološki sektor smatrajući da se oteo kontroli. Pokrenute su istrage o kršenju zakona o zaštiti konkurencije i provere usklađenosti sa propisima o zaštiti podataka, ugledne ličnosti kao što su suosnivač Alibabe Jack Ma su se povukle iz javnog života, a novi propisi su uvedeni za društvene mreže, ekonomiju privremenih i povremenih poslova i aplikacije za video-igre. Sada KPK jača domaću tehnološku industriju, suočena sa stranim mešanjem. Predsednik Xi Jinping usmerava resurse na AI i poluprovodnike, daje podstrek kineskim visokostručnim kadrovima i poziva na samostalan, pouzdan i povezan ekosistem za razvoj softvera i hardvera.
Da ironija bude veća, geopolitičke prepreke koje treba da uspore kineski napredak na polju AI-ja doprinele su njenim nedavnim uspesima. Raskorak između SAD i Kine sada se meri mesecima, ne godinama, kaže Wei Sun, analitičar u istraživačkoj firmi za analizu tržišta tehnologije, medija i telekomunikacija Counterpoint Technology Market Research. "U Kini vlada kolektivni duh i spremnost da se prione na posao sa takvim intenzitetom da se postiže superiornost u realizaciji", kaže Sun, ukazujući da je uskraćivanje pristupa Kini Nvidijinim čipovima podstakao AI inovacije. "Ova dinamika stvara dovodi do neke vrste pritiska prirodne selekcije: opstaće oni koji mogu da sa manje resursa naprave više."
Liang (u centru) na simpozijumu u Pekingu u februaru/Florence Lo/Reuters
Mnogi u SAD i dalje misle da je bilo nepoštenih praksi kada je reč o kineskim inovacijama. U izveštaju odbora Predstavničkog doma Kongresa SAD, u kome su učestvovale obe stranke, objavljenom u aprilu, tvrdi se da postoje značajne veze između DeepSeeka i kineskih vlasti i zaključuje da je ta kompanija nezakonito došla do podataka OpenAI-ja i da predstavlja ozbiljnu pretnju američkoj nacionalnoj bezbednosti. Dario Amodei, izvršni direktor Anthropica, pozvao je na dodatno pooštravanje ograničenja izvoza iz SAD, tvrdeći u svojoj objavi na blogu od 3.400 reči da je DeepSeek morao da prokrijumčari znatne količine Nvidijinih GPU-ova, uključujući najnaprednije čipove H100. (Bloomberg News je nedavno izvestio da američki zvaničnici istražuju navode da je DeepSeek zaobišao ograničenja izvoza tako što je kupio čipove preko treće strane u Singapuru.)
Kineska ambasada je odbacila tvrdnje odbora Predstavničkog doma kao neosnovane. Nvidia je saopštila da su čipovi za DeepSeek izvezeni u skladu sa propisima i da bi dodatna ograničenja mogla da pomognu kineskoj industriji poluprovodnika. Portparol ovog proizvođača čipova kaže da će se primoravanjem DeepSeeka da koristi više čipova i usluga iz Kine, samo dati vetar u leđa kompaniji Huawei i proizvođačima infrastrukture za AI iz drugih zemalja.
Kompanija u središtu ove debate i dalje predstavlja enigmu. DeepSeek se ponosi time što je omogućio pristup softveru za svoju AI tehnologiju, ali nije toliko otvoren kada je reč o svom načinu rada i planovima. DeepSeek objavljuje vrlo specifične detalje svojih istraživanja u javnim radovima, ali ne želi da pruži osnovne informacije o troškovima razvoja svog AI-ja, strukturu svojih GPU-ova i poreklo podataka.
"Ne znamo koji su pravi motivi DeepSeeka. Nije jasno šta se tu dešava"
Liang je poznat po tome da je toliko nedruštven da ga neki lideri iz sveta AI u Kini zovu Tehnološki Ludi Genije, što je nadimak koji se obično daje ekscentričnim i izuzetno ambicioznim preduzetnicima. On nije dao nijedan intervju u proteklih 10 meseci, a malo ljudi je znalo kako uopšte izgleda, sve dok se nije pojavila fotografija njegovog dečačkog lica sa naočarima napravljena tokom brifinga za kineskog premijera Li Qianga. Liang i njegove kolege nisu odgovorili na više upita da komentarišu ovaj članak, a stigao je samo automatski odgovor jedne zaposlene u kome se navodi da je obrada zahteva u toku: "Hvala vam na pažnji i podršci DeepSeeku!", navela je ona u imejlu.
Bloomberg Businessweek je, da bi pružio bolji uvid u to kako kompanija funkcioniše i uklapa se u ambicije Kine na polju AI-ja, razgovarao sa 11 osoba koje su nekada radile za Lianga, kao i više od 30 analitičara, investitora rizičnog kapitala i rukovodilaca bliskih kineskoj AI industriji.
To što se ne zna mnogo o ovoj kompaniji ostavlja prostor njenim kritičarima, poput Amodeija i izvršnog direktora OpenAI-ja Sama Altmana, da prazninu popune glasinama koje nalaze na dobar odjek u američkoj javnosti, ionako spremnoj da u kineskoj tehnologiji vidi mračnu pretnju. Međutim, i oni koji gaje oprez prema DeepSeeku moraju da se suoče s tim da je AI model ove kompanije nesumnjivo kvalitetan. Dmitrij Ševelenko, direktor poslovanja u kompaniji Perplexity AI Inc, kaže da niko u toj kompaniji koja razvija pretraživač zasnovan na AI-ju nije uspeo da komunicira sa nekim od kolega u DeepSeeku. Ipak, Perplexity AI Inc. je prihvatio DeeSeekovu tehnologiju, postavio je isključivo na svoje servere u SAD i Evropi i dodatno obradio kako bi uklonio sve skupove podataka sa naznakama prisustva cenzure KPK. Perplexity je model nazvao R1 1776 (dodati broj na originalni naziv modela je referenca na godinu osnivanja SAD), što predstavlja, kako kaže Shevelenko, omaž slobodi. "Ne znamo koji su pravi DeepSeekovi motivi", kaže on. "Nije jasno šta se tu dešava."
DeepSeek je predvideo da će njegov model AI-ja izazvati zabrinutost u inostranstvu. Tokom slabo zapažene virtuelne prezentacije na konferenciji Nvidije za programere u martu 2024. godine, Deli Chen, stručnjak za duboko učenje (vrsta mašinskog učenja koje koristi višeslojne neuronske mreže kako bi AI sistem automatski učio iz velikih količina podataka, prim. prev.) govorio je da vrednosti koje se ugrađuju u velike jezičke modele treba prilagoditi različitim društvima. Na jednom slajdu, Chen je prikazao DeepSeekov prototip za prilagođavanje etičkih standarda u četbotovima koje koriste ljudi iz različitih sredina. Pritiskom na dugme, programeri mogu da podese pravni status pitanja kao što su kockanje, eutanazija, prostitucija, posedovanje oružja, kanabis i surogat majčinstvo. "Treba samo da izaberu opciju koja je u skladu sa njihovim potrebama i moći će da koriste uslugu modela prilagođenu svojim vrednostima", rekao je Chen.
Bloomberg Businessweek
Pronalaženje takvih efikasnih rešenja za prevazilaženje prepreka oduvek je bilo deo poslovne kulture DeepSeeka. Liang i njegovi prijatelji izučavali su različite tehnološke predmete na Univerzitetu Džeđijang (jedan od najvećih, najstarijih i najprestižnijih univerziteta u Kini, u jugoistočnoj provinciji Džeđijang, prim. prev.) sredinom dvehiljaditih – mašinsko učenje, obradu signala, elektroniku, i verovatno iz čiste razonode (i podrazumeva se, para) razvili kompjuterski program za trgovinu akcijama tokom svetske finansijske krize.
Liang je, pošto je diplomirao, nastavio da sam pravi kvantitativne sisteme za trgovanje (sistemi koji koriste matematičke modele, statistiku i algoritme za donošenje odluka o trgovanju na finansijskim tržištima, prim. prev.). On je tako zaradio pravo malo bogatstvo pre nego što se udružio sa svojim prijateljima sa studija u Hangdžouu, gde su pokrenuli 2015. godine kineski kvantitativni hedž-fond High‑Flyer Quant 2015. godine.
U prvim oglasima za posao koje su objavili, hvalili su se time da su privukli vodeće stručnjake iz Googlea i Faceebooka i tražili programere "štrebere", koji su ekscentrično inteligentni poput Sheldona, glavnog junaka serije "Štreberi" (engl. The Big Bang Theory). Obećavali su besplatnu užinu, udobne i kvalitetne stolice brenda Herman Miller, noćne partije pokera, radno okruženje u kome se mogu nositi majice i papuče i u maniru "fintech bro" kulture (zatvorena kultura često arogantnog ophođenja i intenzivnog rada među mlađim muškarcima u firmama za finansijske tehnologije, prim. prev.), "preslatke, stidljive devojke rođene tokom devedesetih" i "oštroumne boginje koje su se vratila sa Wall Streeta".
High-Flyer, kao što će to biti i DeepSeek, gradio je imidž zagonetnosti – u prvoj objavi na društvenim mrežama Liang je pomenut samo kao "gospodin L", ali je istovremeno negovao neku vrstu otvorenosti. Svakog petka High-Flyer bi objavio tabele sa performansama svojih 10 prvobitnih fondova na kineskoj mobilnoj superaplikaciji WeChat (superaplikacija kombinuje društvene mreže, čet, plaćanja, kupovinu, rezervacije i drugo, prim. prev.). Pre nego što je sedmične podatke počeo da dostavlja samo registrovanim investitorima u leto 2016. godine, njegov portfelj je ostvarivao prosečne godišnje prinose od 35 odsto.
Bloomberg Businessweek
Milijarde dolara su se na kraju slile u portfelj High-Flyera, a broj zaposlenih u njegovim grupama za investicije i istraživanja povećao na više od 100. Liang je počeo da zapošljava ljude u odeljenju za AI 2019. godine, s namerom da istraži ogromne skupove podataka kako bi uočio akcije sa nižom tržišnom cenom od stvarne, sitne oscilacije u cenama za visokofrekventno trgovanje (trgovanje u okviru kojeg moćni računari i algoritmi izvršavaju veliki broj transakcija na berzi za vrlo kratko vreme, prim. prev.), kao i makrotrendove koje su možda propustili investitori aktivni u nekoj industriji. Početkom pandemije virusa korona, on i njegov tim su napravili računarski sistem visokih performansi sa povezanim procesorima koji rade paralelno - konfiguracija poznata kao klaster (računarski klaster je grupa nezavisnih računara povezanih lokalnom mrežom koji rade zajedno kao jedan mnogo jači računar, prim. prev.).
High-Flyer je naveo da je taj klaster nabavio 1.000 Nvidijinih čipova 2080Ti koje obično koriste gejmeri i 3D-dizajneri, i dodatnih 100 GPU-ova iz serije Volta. (Volta GPU, poznat i kao V100, bio je prvi Nvidijin procesor prilagođen AI-ju.) Dok je prethodnoj, manjoj računarskoj arhitekturi High-Flyera bilo potrebno dva meseca da trenira novi model ekonomske analize, novoj opremi je bilo potrebno manje od četiri dana da obradi isti obim posla.
Ovi modeli za finansije bili su impresivni, ali mnogo manji od višenamenskih modela u SAD kakve je OpenAI razvijao. Liang je insistirao na pravljenju znatno većeg superkompjutera koji će se sastojati od Nvidijinih GPU-ova A100, naprednijeg naslednika V100. Bivši inženjer u High-Flyeru koji je bio uključen u projekat kaže da je Liang bio najveći pojedinačni korisnik rastućeg klastera, odnosno da je 80 odsto računarske obrade za pravljenje modela korišćeno pod njegovim korisničkim imenom. Ovaj nekadašnji inženjer kaže da je delovalo da je Liang opsednut dubokim učenjem, nazvavši to njegovim skupim hobijem. Ulaganje na stotine miliona dolara u takvu AI infrastrukturu verovatno je bilo previše za firmu za kvantitativno trgovanje, ali je Liang više nego dovoljno zaradio da bi mogao to priušti. "To je za Lianga tada bila sitnica", priseća se inženjer. "Više računarske snage, bolji modeli, veći dobici u trgovanju."
Bar su se tome nadali. High‑Flyer, koji je tada upravljao imovinom vrednom 14,1 milijardu dolara, izvinio se deoničarima u pismu u decembru 2022. godine zbog serije slabih prinosa. Firma je krivila slabije performanse svojih AI sistema za koje je tvrdila da su dobro birali akcije, ali da nisu uspevali da dobro tempiraju prodaju usred volatilnosti izazvane pandemijom. Uprkos tome, odlučio je da doslovno udvostruči ulaganja u AI: u januaru 2022. godine High-Flyer je objavio na društvenim mrežama da je prikupio 5.000 Nvidijinih A100, koji koštaju više desetina hiljada dolara po komadu. Kompanija je u martu najavila da je proširila ovaj klaster na 10.000 procesorskih jedinica, samo šest meseci pre nego što je Nvidia upozorila da bi novo američko ograničavanje izvoza moglo da utiče na izvoz takvih čipova u Kinu.
Nije, međutim, jasno koliki je deo te infrastrukture bio namenjen kvantitativnom trgovanju, a koliki Liangovom skupom hobiju. Na proleće 2023, oko pet meseci pošto je OpenAI predstavio ChatGPT (30. novembra 2022, prim. prev.), Liang je izdvojio DeepSeek kao nezavisnu istraživačku laboratoriju. U odvojenim kancelarijama u Hangdžouu i Pekingu, težište pažnje više nije bilo na finansijama. U nepotpisanom manifestu prepunom fraza High-Flyer je obećao da će odbaciti prosečnost i uhvatiti se ukoštac sa najtežim izazovima u AI revoluciji. Njegov krajnji cilj: veštačka opšta inteligencija (AGI - vrsta AI-ja koja može da razume, uči i rešava zadatak na nivou čoveka ili na višem nivou, prim. prev.).
DeeSeekova laboratorija je 2023. godine žurila da razvije AI asistenta za programiranje, četbot zasnovan na opštem znanju (četbot koji može odgovarati na širok spektar pitanja iz različitih oblasti, prim. prev.) i generator 3D-umetnosti na osnovu teksta. Liang je doveo inženjere iz High-Flyera, kao i one iz kancelarije Microsoft Corp u Pekingu i vodećih kineskih tehnoloških kompanija i univerziteta. Bo Benjamin Liu, koji došao u kompaniju kao student istraživač tog septembra pre nego što je krenuo na doktorske studije, kaže da je Liang često davao stažistima ključne zadatke koje bi drugde dodeljivali iskusnijim zaposlenima. "Uzmite na primer mene: kada sam došao u kompaniju, niko nije radio na RLHF infra pa me je on pustio da to radim."
RLFH infrastruktura je neophodna za primenu tehnike učenja na osnovu povratnih informacija od ljudi (Reinforcement Learning from Human Feedback; AI sistem uči kako da donosi odluke i rešava probleme kroz interakciju sa okruženjem, oslanjajući se na pozitivne i negativne povratne informacije koje dobija za svoje postupke, prim. prev.). "Poveriće vam da radite nešto što niko pre nije radio." (Od toga je DeepSeek imao još jednu: plaćao je stažiste 140 dolara po danu i davao mesečnu subvenciju za stanovanje od 420 dolara, što je izdašna suma za Kinu, ali je oko trećina zarade koju stažisti dobijaju u AI kompanijama u SAD, i tek vrlo mali deo sume koju zarađuju inženjeri u stalnom radnom odnosu u Silicijumskoj dolini.)
Liang je tokom 2023. godine rizikovao sa "razređivanjem" (sparsity), pristupom koji povećava efikasnost LLM modela tako što se model razbija na specijalizovane module prema vrsti zadataka, rekla su dva nekadašnja istraživača u DeepSeeku. Kada biste postavili pitanje prvobitnom ChatGPT-ju, njegov celokupni LLM "mozak" bi se pokretao kako bi dao savršen odgovor, bilo da ga pitate koliko je 2+2 ili o receptu za pitu. Razređeni model, nasuprot tome, bolje će iskoristiti resurse zahvaljujući tome što je podeljen na "eksperte", te će se samo relevantni delovi aktivirati za potrebe davanja odgovora na određen upit.
Razređivanje može doneti ogromne uštede u računarskim troškovima (smanjuje se broj aktivnih parametara ili veza u modelu, što omogućava brže i jeftinije računarske procese bez značajnog gubitka tačnosti, prim. prev.), ali je i vrlo složen pristup. Ako se upit ne obradi kroz dovoljan broj modelskih komponenata ili ode na pogrešan specijalizovani modul, odgovor će biti manje kvalitetan. (Deo AI modela koji je specijalizovan za rešavanje matematičkih problema znaće da upotrebi Pi u formuli, ali neće znati šta ide u pitu, na primer.) Liang je video napredak koji su u tome ostvarili Google i francuski startap-jednorog Mistral (jednorozi – malobrojni i uspešni startapovi koji su dostigli vrednost od milijardu dolara, a još nisu na berzi, prim. prev.), koji je objavio razređeni model u decembru 2023. Taj model je bio podeljen na osam "eksperata", a na svaki upit bi se aktivirala dva najrelevantnija "eksperta" u zavisnosti od konteksta. Liang je usmerio svoj tim da razvija model sa još više eksperata, pristup uz koji ide i veća mogućnost halucinacija, odnosno grešaka i fragmentacije znanja AI-ja (zbog fragmentacije, model može davati delimične, nepovezane ili kontradiktorne informacije, prim. prev.). "To je podstaklo značajnu raspravu na internom planu", kaže bivši zaposleni u DeepSeeku.
Usledili su novi proboji, objavljivani u javnosti i koji su privlačili pažnju kineskih konkurentskih firmi. Zatim, krajem 2024. godine DeepSeek je lansirao V3, model AI opšte namene, koji je za 65 odsto bio veći od modela kompanije Meta Platforms Inc, koji je u to vreme važio za najveći dostupni LLM otvorenog koda. Međutim, pažnju izvršnih rukovodilaca Googlea, OpenAI-ja i Microsofta privukao je poduži istraživački dokument o V3, oko mesec pre nego što se šira javnost upoznala sa DeepSeekovim modelom rezonovanja R1. Sledeći šokantni podatak je procurio iz PDF-a: DeepSeek je nagovestio da je celokupan razvoj V3 koštao samo 5,6 miliona dolara. Iznos se verovatno odnosio samo na završni ciklus treniranja – proces glačanja podataka koji od prototipa modela stvara završni proizvod. Međutim, mnogi su smatrali da je budžet neverovatno mali za celokupan projekat. Poređenja radi, kumulativno treniranje najnaprednijih vrhunskih modela može koštati 100 miliona dolara i više. Amodei iz Anthropica čak je predviđao (pre uspona DeepSeeka) da će treniranje modela sledeće generacije koštati od 10 milijardi do 100 milijardi dolara po modelu.
Leandro von Werra, rukovodilac istraživanja za popularnu platformu kompanije Hugging Face Inc, na kojoj su dostupna rangiranja LLM-ova, kaže da ga u dokumentu nije toliko iznenadila DeepSeekova inovativna arhitektura koliko činjenica da je kompanija morala da je razvije vrlo kvalitetne podatke za potrebe V3, bilo tako što ih je nekako pokupila sa interneta ili izvukla drugim sredstvima. "Bez vrlo pouzdanih skupova podataka, modeli neće imati dobre performanse", kaže Von Werra. "Iz izveštaja jasno proističe da DeepSeek ima jedan od najkvalitetnijih skupova podataka za treniranje LLM. Nažalost, izveštaj se bavi skupom podataka na samo pola strane od ukupno 50 strana."
DeepSeek je ostvario brzi napredak zahvaljujući tome što je princip otvorenog koda (ideja da softver treba da bude dostupan svima bez ograničenja, prim. prev.) bio sastavni deo Liangove filozofije. On je smatrao da se skrivanjem nečije tehnologije i naplaćivanjem korišćenja moćnijih modela - pristup koji su usvojile vodeće američke laboratorije, uključujući OpenAI i Google, daje prednost kratkoročnoj koristi nauštrb dugoročnog uspeha. DeepSeek je time što je tehnologiju učinio dostupnom javnosti, i to uglavnom besplatno, pomoglo je da ona bude lakše usvojena, a startapovi i istraživači podstaknu da je nadograđuju. Ideja je bila da se stvori povratna sprega između korišćenja proizvoda i dobijanja povratne informacije. Kao što je to DeepSeek navela u saopštenju povodom prvog predstavljanja nekog svog LLM-a pre sada gotovo dve godine, citirajući tvorca operativnog sistema otvorenog koda Linux: "Lako je pričati, nego pokaži mi kod".
"Njima u suštini nije potreban novac. Zbog sve te pompe oko Šest malih zmajeva, ljudi ih zasipaju novcem."
Jedne oblačne nedelje u aprilu na prometnom Međunarodnom aerodromu Xiaoshan u Hangdžouu, putnike su dočekivali digitalni bilbordi na kojima su promovisane AI usluge Alibabe ByteDancea i Huaweija. Humanoidni robot sa kosom plave boje pozdravljao je mahanjem putnike na modernom terminalu. Napolju, startap za autonomna vozila testirao je male samovozeće kamione za prevoz tereta po pisti. Uz svu halabuku oko DeepSeeka, Zapadnjaci zaboravljaju da je to samo jedan od AI zmajeva koji niču u nizu kineskih središta koja su pandan Silicijumskoj dolini. U Hangdžouu, velikom gradu sa 12,5 miliona stanovnika, Deep Seek pripada elitnoj grupi tehnoloških startapova poznatih kao Šest malih zmajeva.
U slikovitom okrugu Zapadno jezero nalazi se Game Science, studio koji je dospeo u žižu interesovanja kao kreator igrice Black Myth: Wukong, najprodavanije akcione igre koju hvale zbog korišćenja tehnika mašinskog učenja, što je doprinelo da likovi u igrici budu realističniji. Nedaleko odatle se nalaze dve vodeće kompanije u oblasti robotike i jednorog koji se bavi softverom za 3D-prikaz prostora. Takođe je u blizini i Zhejiang Qiangnao Technology Co, poznata kao BrainCo, koju se može najpribližnije opisati kao kineski verzija Neuralink Cropa sa državnom podrškom. Njeni koreni sežu do startapa koji je u okviru inkubatora na Univerzitetu Harvard pokrenuo doktorand Bicheng Han, rodom iz Kine. Ta kompanija sada razvija bioničke udove i tehnologije za korišćenje moždane aktivnosti u upravljanju računarima u partnerskoj laboratoriji u Hangdžouu. Jedna od proteza šake bazirane na AI, koju je razvio BrainCo, trenutno je izložena u izložbenom centru u Kineskom gradu veštačke inteligencije, još jednom tehnološkom parku koji se razvija u Hangdžouu.
U proteklih nekoliko nedelja lideri BarinCo-a su organizovali obilaske izložbe, rekla je osoba koja je prisustvovala tome. Posetioci su često zainteresovani za ulaganje, ali predstavnici ove firme nisu delovali kao da im je neophodan kapital sa strane. "Njima u suštini nije potreban novac", rekao je jedan menadžer fonda koji je učestvovao u obilasku. S obzirom na pompu oko Šest malih zmajeva, ljudi ih zasipaju novcem.
U pozadini svih ovih startapova stoji vlada predsednika Xija. Generativna AI, robotika i drugi ciljevi u oblasti visokih tehnologija deo su državne strategije koja pre svega insistira na "samodovoljnosti i samoosnaživanju", kako je to formulisao Xi na nedavnom sastanku Politbiroa, javila je kineska državna novinska agencija Xinhua. "Moramo prepoznati nedostatke i udvostručiti naše napore kako bismo ostvarili sveukupan napredak na polju tehnoloških inovacija, industrijskog razvoja i aplikacija pokretanih AI."
Zmajevi čuju poruku, a i nisu svi baš mali. Glavni poslovni kompleks konglomerata Alibaba, vredan 300 milijardi dolara, prostrano je imanje sa sopstvenim jezerom. Nalazi se u delu Hangdžoua udaljenom oko 40 minuta vožnje kolima zapadno od Zapadnog jezera. Kompanija je nedavno obećala da će uložiti 53 milijarde dolara u izgradnju još data-centara za AI u naredne tri godine. Saopštila je i da je njeni najnoviji, vodeći modeli Qwen3 pariraju DeepSeeku po performansama i isplativosti. Van Kine, Alibabu obično doživljavaju kao kompaniju za onlajn trgovinu, ali je njegova brzo rastuća jedinica za AI i klaud izdvojena 2022. godine u zaseban tehnološki centar na obodu Hangdžoua. U sali za sastanke tog centra, na velikim ekranima se emituju pregledi informacija iz industrije koji se ažuriraju na svaka 72 sata, a sadrže prikaz najnovijih dostignuća konkurenata poput DeepSeeka i OpenAI-ja. Postoji čak i sedmični pregled koji se prikazuje u toaletima kao podsetnik da se trka u AI-ju nastavlja i kada stručnjaci za tehnologije moraju da odgovore na fiziološke potrebe.
Ma, neuhvatljivi suosnivač Alibabe koji je praktično nestao iz javnog života nakon što se KPK obrušila na kineski tehnološki sektor pre gotovo pet godina, ponovo se pojavio u aprilu, u kompleksu kompanije povodom obeležavanja 15. godišnjice odeljenja za klaud. U jednom od malobrojnih obraćanja, Ma je rekao da želi da AI služi ljudima a ne da gospodari, reklo je više ljudi koji su tome prisustvovali. Gosti, od kojih su neki pratili prenos uživo iz svojih kancelarija u Hongkongu i Tokiju, kažu da ih je oduševio Maov trijumfalni povratak.
To je bio podsetnik da su tehnološke zvezde poput Ma, ponovo u milosti KPK-a i da su im se pridružile nove nade poput Lianga, dok tehnološki lideri u SAD gube sjaj. Kina je sve ponosnija i želi da pokaže da može da prevaziđe prepreke koje joj postavlja Zapad. George Chen, izvršni direktor konsultantske kuće Asia Group LLC sa sedištem u Hongkongu, kaže da su vodeći kineski inženjeri počeli da se vraćaju kući nakon perioda rada u SAD, u Appleu, Googleu i Microsoftu i drugim vodećim kompanijama. Tome je delimično doprineo neprijateljski odnos Trumpove administracije, ali ih privlači i osećaj da glavne stvari počinju da se dešavaju na istoku. "Silicijumska dolina nije više toliko privlačno mesto za rad kineskim stručnjacima", kaže Chen.
Kai-Fu Lee, osnivač kineskog jednoroga, 01.AI, ide korak dalje. Lee, veteran iz Applea, Googlea i Microsofta, kaže da nove generacije stručnjaka ne slede njegov put tako što bi, pre nego što pokrenu svoj biznis u Kini, prvo stekli iskustvo u američkim kompanijama. "Ovi mladi inženjeri za AI su se uglavnom ovde formirali", kaže on. "DeepSeekov uspeh, zajedno sa uspehom drugih novih AI startapova, motiviše sve više mladih stručnjaka da učestvuju u AI preporodu Kine."
"Ova dinamika stvara neku vrstu pritiska prirodne selekcije: opstaće oni koji mogu da sa manje resursa naprave više."
Nijedna tehnološka kompanija u Kini ne izaziva danas toliko ponosa kao DeepSeek. Kirby Fung, 27-godišnji računarski stručnjak iz Kanade, odveo je svoju porodicu tokom posete Hangdžouu u aprilu u obilazak Liangovog matičnog Univerziteta Džeđijang. Fung je pohađao program razmene i želeo je baki i deki i mlađem bratu da pokaže da je studirao na istom mestu kao i Liang. "Stvarno zvuči kul kada pričam prijateljima u Kanadi da je tip koji je napravio DeepSeek išao u istu školu kao ja", kaže Fung.
Turisti i influenseri sa društvenih mreža redovno dolaze u sedište DeepSeeka, smešteno u kompleksu sa četiri kule iz kojih se pruža pogled na kineski Veliki kanal (drevni veštački kanal koji povezuje Peking i Hangdžou, prim. prev.). Turisti se nadaju da će videti Lianga u lokalnim radnjama ili otmenom hot-pot restoranu (hot-pot ili kineski kotlić je tradicionalno jelo; različiti sastojci se po želji kuvaju u ključaloj supi na stolu, prim. prev.), u kome ponekad jedu zaposleni. (Domaćici restorana pripada dužnost da saopšti vest da on nikada nije tu svraćao.)
Ljudi koji poznaju Lianga kažu da on vreme provodi između Hangdžoua i pekinške kancelarije DeepSeeka, na petom spratu staklene kule u tamošnjem tehnološkom centru. Tamo, programeri u dvadesetim godinama marljivo rade za stolovima sa podesivom visinom, a ostava je puna energetskih pića, instant rezanaca brenda Kang Shi Fu i štapića latiao (tradicionalna kineska grickalica; obično ljuti štapići od pšeničnog brašna, prim. prev.). Tu je i tabla na kojoj zaposleni mogu da napišu šta još žele od hrane. "Malo sam se ugojio pošto sam tamo mesecima ručavao i večerao", rekao istraživač koji je doskoro radio tamo.
Liang retko kada pristaje da se sastane sa ljudima koji nisu iz firme, a ponekad se čak pojavljuje kao hologram pred onima koje je pristao da primi. On je odbio poziv da učestvuje u ovogodišnjem, važnom Samitu o veštačkoj inteligenciji u Parizu, događaju na koji su došli Altman iz OpenAI-ja, izvršni direktor Alphabet Inc. i Googlea Sundar Pichai i premijeri i predsednici niza zemalja.
Bloomberg
Dok Kina slavi DeepSeek, SAD ga tretiraju kao nepoznati organizam koji se tajanstveno pojavio u vodovodu, nastojeći da utvrdi da li je dobroćudan ili zloćudan. Kritičari tvrde da KPK kontroliše DeepSeek, da kompanija krade podatke za treniranje od rivala iz SAD i da je deo šire špijunske kampanje ili psihološke operacije u cilju podrivanja nadmoći Silicijumske dolina. "DeepSeek je direktan kanal koji vodi od američkog tehnološkog sektora do države kontrole pod KPK, koji predstavlja pretnju ne samo po privatnost američkih građana već i našu nacionalnu bezbednost", rekao je portparol odbora Predstavničkog doma Kongresa SAD, koji istražuje DeepSeek.
DeepSeek, međutim, tvrdi da se ne razlikuje od bilo kog zapaženog startapa, da je rezultat čistog entuzijazma i kreativnosti, kako je to naveo u objavi na X-u iz februara. Na kraju krajeva, on radi u istom kompleksu u Pekingu kao i Google, nedaleko od restorana brze hrane Burger King i dva kafea sa pecivom iz kanadskog lanca Tim Hortons. Ne znači da se nešto sumnjivo dešava u pozadi samo zato što šira AI industrija do sada nije poklanjala veću pažnju DeepSeeku. "DeepSeek je iznenadio svet AI-ja", kaže Arnaud Barthelemy, partner u investicionoj firmi rizičnog kapitala Alpha Intelligence Capital, koja je investirala u OpenAI i SenseTime. "A trebalo je da to predvidi."
Barthelemy kaže da se iz primera DeepSeeka može naučiti koliko su kineske kompanije uspešne u tome da ograničenja pretvore u prednost. "U Kini ima puno pametnih stručnjaka koji su napravili mnoge pametne inovacije sa mnogo manje računarskih resursa", kaže on.
I zaista, u maju 2023. godine, istog meseca kada je DeepSeek osnovan, izvršni direktor Nvidije Jensen Huang rekao je za Businessweek da će previše stroga ograničenja koje SAD uvode Kini samo podstaći tu zemlju da u inovacijama nadmaši one koji joj stoje na putu. On je, opisujući ekonomski uticaj kao efikasno oruđe nacionalne bezbednosti, naglasio da će neplanirane posledice vladine intervencije biti teške. "Gubitak jedne trećine tržišta tehnološke industrije mora imati katastrofalne posledice", rekao je on, misleći na rizike koje nosi ograničenje izvoza američkih tehnoloških proizvoda u Kinu. "Oni će procvetati bez konkurencije. Oni će cvetati i izvoziti u Evropu, u jugoistočnu Aziju."
"Morate voditi računa koliko ćete ići daleko u izazivanju konkurencije", rekao je Huang. "Odjednom se ispostavi da se reakcija ne može predvideti. Ljudi koji nemaju šta da izgube, mogu da odgovore sasvim neočekivano."
Kontroverze i dalje postoje u vezi sa jednim važnim delom priče o DeepSeeku, a to je koliko je zaista potrošio na razvoj svojih modela. U često citiranom izveštaju, američka firma za analize i istraživanja SemiAnalysis ocenjuje da su High-Flyer i DeepSeek verovatno imali pristup klasterima od oko 50.000 Nvidijinih vrhunskih GPU-ova iz serije H, vrednih 1,4 milijarde dolara, koje su uglavnom krili od javnosti. Veći deo ove infrastrukture sastojao se od GPU-ova koji su verovatno bili usklađenje sa propisima o izvozu, naveo je SemiAnalysis. (SAD su dozvolile Nvidiji da proda Kini određene čipove - H20 i H800, čije su performanse modifikovane kako bi mogli da se izvezu u skladu sa ograničenjima koje je uvela Bela kuća.) Međutim, ova konsultantska kuća je takođe tvrdila da je DeepSeek raspolagao sa dodatnih 10.000 Nvidijinih H100 čipova najnovije generacije, čiji su izvoz u Kinu zabranile vlasti SAD.
Tri bivša zaposlena odlučno odbacuju ove tvrdnje, navodeći da je DeepSeek imao manje od 20.000 GPU-ova, i to uglavnom starijih modela Nvidijinih čipova i onih čiji je izvoz dozvoljen. "Oni šire laži", kaže o SemiAnalysis doktorand Bo Liu. Konsultantska firma ističe da ostaje pri svom izveštaju.
Ono što nije sporno jeste da bi DeepSeek voleo da ima pristup računarskoj snazi kojom raspolažu američke tehnološke firme. Kompanija deluje uvereno da bi mogla da uradi mnogo više sa takvim kapacitetima nego Silicijumska dolina. "Istraživači LLM-a imaju ogromnu potrebu za računarskim resursima – da ja radim sa desetinama hiljada GPU-ova iz serije H, i ja bih se verovatno ponašao rasipnički, eksperimentišući sa stvarima koje možda baš ne bi bile neophodne", kaže jedan od bivših zaposlenih u DeepSeeku. Međutim, kineski tehnološki stručnjaci su spremni da se uhvate ukoštac sa pitanjem pristupa većim resursima. "Voleo bih da mi, kineske kompanije, možemo da raspolažemo sa 50.000 GPU-ova jednog dana", kaže istraživač koji je radio u DeepSeeku, a sada radi u drugoj laboratoriji za AI otvorenog koda u Pekingu. "Da li želite da vidite šta bismo mogli da postignemo?"
- Austin Carr, Saritha Rai, Zheping Huang, Luz Ding, Claire Che, Matt Day i Jackie Davalos.
Trenutno nema komentara za vest. Ostavite prvi komentar...