Superdimenzionirani AI modeli, divovski računalni sustavi dosežu točku preokreta

KREDIT ZA SLIKE:

Istockphoto

Superdimenzionirani AI modeli: Divovski računalni sustavi dosežu vrhunac

Matematički modeli strojnog učenja iz godine u godinu postaju sve veći i sofisticiraniji, ali stručnjaci misle da će ovi ekspanzivni algoritmi uskoro dosegnuti vrhunac.

Autor:
ime autora
Quantumrun Foresight
Lipnja 2, 2023

Od 2012. redovito se događa značajan napredak u umjetnoj inteligenciji (AI), uglavnom potaknut povećanjem računalne snage (skraćeno "računaj"). Jedan od najvećih modela, lansiran 2020., iskoristio je 600,000 2012 puta više računanja od prvog modela iz 2018. Istraživači OpenAI-ja primijetili su ovaj trend XNUMX. i upozorili da ova stopa rasta neće biti dugo održiva.

Kontekst supersized AI modela

Mnogi programeri strojnog učenja (ML) koriste modele transformatora za duboko učenje (DL) zbog njihovog naizgled neograničenog potencijala. Primjeri ovih modela uključuju Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) i Turing Natural Language Generation (NLG). Ovi algoritmi često imaju primjenu u stvarnom svijetu kao što je strojno prevođenje ili predviđanje vremenskih serija.

Načini rada umjetne inteligencije moraju se proširiti kako bi se prilagodili više podataka za obuku i postali bolji u predviđanjima. Ovaj je zahtjev doveo do porasta supervelikih modela s milijardama parametara (varijabli koje koriste algoritmi za predviđanje). Ove modele predstavljaju OpenAI-jev GPT-3 (i njegova ChatGPT interakcija pokrenuta u prosincu 2022.), kineski PanGu-alpha, Nvidijin Megatron-Turing NLG i DeepMindov Gopher. Godine 2020. obuka GPT-3 zahtijevala je superračunalo koje je bilo među pet najvećih na svijetu.

Međutim, ovi modeli obično zahtijevaju ogromne količine energetski intenzivnih podataka o treningu. Duboko učenje ovisilo je o njegovoj sposobnosti korištenja goleme računalne snage, ali to će se uskoro promijeniti. Obuka je skupa, postoje ograničenja za AI čipove, a obuka velikih modela začepljuje procesore, što otežava upravljanje svima njima. Što je veći parametar, skuplje je obučavanje ovih modela. Stručnjaci se slažu da će doći točka u kojoj bi superveliki AI modeli mogli postati preskupi i energetski intenzivni za treniranje.

Razarajući učinak

Godine 2020. OpenAI je procijenio minimalnu količinu računanja potrebnu za obuku brojnih modela, uzimajući u obzir broj parametara i veličinu skupa podataka. Ove jednadžbe objašnjavaju kako ML zahtijeva da podaci prođu kroz mrežu mnogo puta, kako računanje za svaki prolaz raste kako se broj parametara povećava i koliko je podataka potrebno kako broj parametara raste.

Prema procjenama Open AI-ja, pod pretpostavkom da programeri mogu postići maksimalnu učinkovitost, izgradnja GPT-4 (100 puta većeg od GPT-3 (17.5 trilijuna parametara)) zahtijevala bi 7,600 grafičkih procesorskih jedinica (GPU) koje rade najmanje godinu dana i koštaju otprilike 200 milijuna dolara. Model od 100 trilijuna parametara trebao bi 83,000 GPU-a da ga pokreće godinu dana, što bi koštalo više od 2 milijarde USD.

Unatoč tome, tehnološke tvrtke surađuju i ulažu u svoje sve veće supersized AI modele kako potražnja za ML rješenjima raste. Na primjer, Baidu sa sjedištem u Kini i Peng Cheng Lab izdali su PCL-BAIDU Wenxin s 280 milijardi parametara. PCL-BAIDU već koriste Baiduovi izvori vijesti, tražilica i digitalni pomoćnik.

Najnovija verzija Go-playing programa, koju je DeepMind izradio u prosincu 2021., ima 280 milijardi parametara. Modeli Google Switch-Transformer-GLaM imaju nevjerojatnih 1 bilijun odnosno 1.2 bilijuna parametara. Wu Dao 2.0 iz Pekinške akademije umjetne inteligencije još je masivniji i navodno ima 1.75 trilijuna parametara. Dok pametni gradovi i automatizacija nastavljaju gurati poremećaje, stručnjaci nisu sigurni kako će AI računanje podržati takvu budućnost.

Implikacije velikih AI modela

Šire implikacije velikih AI modela mogu uključivati:

Povećana ulaganja i mogućnosti u razvoju AI računalnih čipova koji troše manje energije.
Napredak umjetne inteligencije usporio je nedostatak računalne snage, što je dovelo do većeg financiranja tehnologija i rješenja za uštedu energije.
Programeri ML-a stvaraju alternativne modele osim transformatora, što može dovesti do otkrića i inovacija za učinkovitije algoritme.
Rješenja umjetne inteligencije usmjerena na probleme usredotočene na aplikacije, prilagođavanje računanja u skladu s tim ili modificiranje prema potrebi umjesto samo povećanja veličine.
Složeniji skupovi podataka koji programima umjetne inteligencije omogućuju bolja predviđanja, uključujući vremenske prognoze, otkrivanje svemira, medicinske dijagnoze i međunarodno trgovanje.

Pitanja za komentar

Ako radite u sektoru umjetne inteligencije, koji su pomaci u razvoju boljih ML modela?
Koje su druge potencijalne prednosti modela s opsežnim podacima o obuci iz kojih možete učiti?

Dodaj u popis