Veliki kompjuterski sistemi velikih AI modela dostižu prekretnicu

KREDIT ZA SLIKU:

iStock

Veliki AI modeli: Džinovski računarski sistemi dostižu prekretnicu

Matematički modeli mašinskog učenja iz godine u godinu postaju sve veći i sofisticiraniji, ali stručnjaci smatraju da će ovi ekspanzivni algoritmi uskoro dostići vrhunac.

Autor:
Ime autora
Quantumrun Foresight
Juni 2, 2023

Od 2012. godine, značajan napredak u umjetnoj inteligenciji (AI) se redovno događa, uglavnom vođen povećanjem računarske snage (skraćeno „računaj“). Jedan od najvećih modela, lansiran 2020., koristio je 600,000 puta više računara od prvog modela iz 2012. Istraživači u OpenAI-u su primijetili ovaj trend u 2018. i upozorili da ova stopa rasta neće biti dugo održiva.

Kontekst velikih AI modela

Mnogi programeri mašinskog učenja (ML) koriste transformatorske modele za duboko učenje (DL) zbog njihovog naizgled neograničenog potencijala. Primjeri ovih modela uključuju Generativni unaprijed obučeni transformator 2 (GPT-2), GPT-3, Bidirectional Encoder Reprezentations from Transformers (BERT) i Turing Natural Language Generation (NLG). Ovi algoritmi često imaju primjene u stvarnom svijetu kao što je strojno prevođenje ili predviđanje vremenskih serija.

Modovi umjetne inteligencije moraju se proširiti kako bi primili više podataka o obuci i postali bolji u predviđanjima. Ovaj zahtjev je doveo do porasta velikih modela sa milijardama parametara (varijable koje algoritmi koriste za predviđanje). Ove modele predstavljaju OpenAI GPT-3 (i njegova ChatGPT interakcija pokrenuta u decembru 2022.), PanGu-alpha iz Kine, Nvidijin Megatron-Turing NLG i DeepMindov Gopher. U 2020. godini za obuku GPT-3 bio je potreban superkompjuter koji je bio među pet najvećih na svijetu.

Međutim, ovi modeli imaju tendenciju da zahtijevaju ogromne količine energetski intenzivnih podataka o treningu. Duboko učenje zavisi od njegove sposobnosti da koristi ogromnu računarsku snagu, ali to će se uskoro promeniti. Obuka je skupa, postoje ograničenja za AI čipove, a obuka velikih modela začepljuje procesore, što otežava upravljanje svima njima. Što je parametar veći, to je skuplje obučavanje ovih modela. Stručnjaci se slažu da će doći do tačke u kojoj će superdimenzionirani AI modeli postati preskupi i energetski intenzivni za obuku.

Ometajući uticaj

OpenAI je 2020. godine procijenio minimalnu količinu računara potrebnu za obuku brojnih modela, uzimajući u obzir broj parametara i veličinu skupa podataka. Ove jednadžbe objašnjavaju kako ML zahtijeva da ti podaci prođu kroz mrežu mnogo puta, kako izračunavanje za svaki prolaz raste kako se broj parametara povećava i koliko podataka je potrebno kako broj parametara raste.

Prema procjenama Open AI, pod pretpostavkom da programeri mogu postići maksimalnu efikasnost, izgradnja GPT-4 (100 puta veći od GPT-3 (17.5 triliona parametara)) zahtijevala bi 7,600 grafičkih procesorskih jedinica (GPU) koje bi radile najmanje godinu dana i koštale bi otprilike 200 miliona dolara. Model od 100 triliona parametara bi trebao 83,000 GPU-a da ga napaja godinu dana, što košta više od 2 milijarde dolara.

Bez obzira na to, tehnološke kompanije sarađuju i ulažu u svoje sve veće modele velike veštačke inteligencije kako potražnja za ML rešenjima raste. Na primjer, Baidu sa sjedištem u Kini i Peng Cheng Lab objavili su PCL-BAIDU Wenxin, sa 280 milijardi parametara. PCL-BAIDU već koriste Baiduovi izvori vijesti, pretraživač i digitalni asistent.

Najnovija verzija programa Go-playing, koju je DeepMind kreirao u decembru 2021. godine, ima 280 milijardi parametara. Google Switch-Transformer-GLaM modeli imaju nevjerovatnih 1 bilion i 1.2 triliona parametara, respektivno. Wu Dao 2.0 sa Pekinške akademije AI je još masivniji i navodno ima 1.75 triliona parametara. Kako pametni gradovi i automatizacija nastavljaju da potiču poremećaje, stručnjaci nisu sigurni kako će AI računarstvo podržati takvu budućnost.

Implikacije velikih AI modela

Šire implikacije velikih AI modela mogu uključivati:

Povećana ulaganja i mogućnosti u razvoju AI kompjuterskih čipova koji troše manje energije.
Napredak veštačke inteligencije usporen je nedostatkom računarske snage, što je dovelo do većeg finansiranja tehnologija i rešenja koja štede energiju.
ML programeri kreiraju alternativne modele osim transformatora, što može dovesti do otkrića i inovacija za efikasnije algoritme.
Rješenja umjetne inteligencije koja se fokusiraju na probleme usmjerene na aplikacije, prilagođavajući računanje u skladu s tim ili modificirajući po potrebi umjesto samo povećanja veličine.
Složeniji skupovi podataka koji omogućavaju AI programima da izvode bolja predviđanja, uključujući vremensku prognozu, otkrivanje svemira, medicinske dijagnoze i međunarodno trgovanje.

Pitanja za komentar

Ako radite u sektoru umjetne inteligencije, koji je napredak u razvoju boljih ML modela?
Koje su druge potencijalne prednosti modela sa opsežnim podacima o obuci iz kojih možete učiti?

Dodaj na listu