Veliki računalniški sistemi velikih modelov AI dosegajo prelomno točko

KREDIT ZA SLIKO:

iStock

Superdimenzionirani modeli umetne inteligence: velikanski računalniški sistemi dosegajo prelomno točko

Matematični modeli strojnega učenja postajajo vsako leto večji in bolj izpopolnjeni, vendar strokovnjaki menijo, da bodo ti obsežni algoritmi kmalu dosegli vrhunec.

Avtor:
ime avtorja
Quantumrun Foresight
Junij 2, 2023

Od leta 2012 se na področju umetne inteligence (AI) redno pojavlja pomemben napredek, predvsem zaradi povečane računalniške moči (na kratko »računaj«). Eden največjih modelov, predstavljen leta 2020, je uporabil 600,000-krat več računalništva kot prvi model iz leta 2012. Raziskovalci pri OpenAI so leta 2018 opazili ta trend in opozorili, da ta stopnja rasti ne bo dolgo vzdržna.

Kontekst supersized modelov AI

Številni razvijalci strojnega učenja (ML) uporabljajo transformatorske modele za globoko učenje (DL) zaradi njihovega na videz neomejenega potenciala. Primeri teh modelov vključujejo Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) in Turing Natural Language Generation (NLG). Ti algoritmi imajo pogosto aplikacije v resničnem svetu, kot je strojno prevajanje ali napovedovanje časovnih vrst.

Načini umetne inteligence se morajo razširiti, da sprejmejo več podatkov o usposabljanju in postanejo boljši pri napovedih. Ta zahteva je pripeljala do vzpona velikih modelov z milijardami parametrov (spremenljivk, ki jih algoritmi uporabljajo za napovedovanje). Te modele predstavljajo GPT-3 OpenAI (in njegova interakcija ChatGPT, ki se je začela decembra 2022), PanGu-alpha s sedežem na Kitajskem, Nvidijin Megatron-Turing NLG in DeepMindov Gopher. Leta 2020 je usposabljanje GPT-3 zahtevalo superračunalnik, ki je bil med petimi največjimi na svetu.

Vendar pa ti modeli ponavadi zahtevajo ogromne količine podatkov o vadbi, ki zahtevajo veliko energije. Globoko učenje je bilo odvisno od njegove zmožnosti uporabe ogromne računalniške moči, vendar se bo to kmalu spremenilo. Usposabljanje je drago, za čipe AI obstajajo omejitve, usposabljanje velikih modelov pa zamaši procesorje, zaradi česar jih je težko upravljati. Večji kot je parameter, dražje je usposabljanje teh modelov. Strokovnjaki se strinjajo, da bo prišlo do točke, ko bodo superdimenzionirani modeli umetne inteligence postali predragi in energetsko potratni za usposabljanje.

Moteč vpliv

Leta 2020 je OpenAI ocenil najmanjšo količino računalništva, potrebno za usposabljanje številnih modelov, pri čemer je upošteval število parametrov in velikost nabora podatkov. Te enačbe pojasnjujejo, kako ML zahteva, da gredo podatki večkrat skozi omrežje, kako se računanje za vsak prehod poveča, ko se število parametrov poveča, in koliko podatkov je potrebnih, ko število parametrov raste.

Po ocenah Open AI, ob predpostavki, da lahko razvijalci dosežejo največjo učinkovitost, bi izgradnja GPT-4 (100-krat večjega od GPT-3 (17.5 trilijonov parametrov)) zahtevala 7,600 grafičnih procesnih enot (GPU), ki bi delovale vsaj eno leto in stala približno 200 milijonov USD. Model s 100 bilijoni parametrov bi potreboval 83,000 grafičnih procesorjev za enoletno napajanje, kar bi stalo več kot 2 milijardi USD.

Kljub temu tehnološka podjetja med rastjo povpraševanja po rešitvah ML sodelujejo in vlagajo v svoje vedno večje supersized modele AI. Na primer, Baidu s sedežem na Kitajskem in Peng Cheng Lab sta izdala PCL-BAIDU Wenxin z 280 milijardami parametrov. PCL-BAIDU že uporabljajo viri novic, iskalnik in digitalni pomočnik Baidu.

Najnovejša različica programa Go-playing, ki jo je DeepMind ustvaril decembra 2021, ima 280 milijard parametrov. Modela Google Switch-Transformer-GLaM imata osupljivih 1 bilijon oziroma 1.2 bilijona parametrov. Wu Dao 2.0 s Pekinške akademije za umetno inteligenco je še bolj masiven in naj bi imel 1.75 bilijona parametrov. Ker pametna mesta in avtomatizacija še naprej povzročajo motnje, strokovnjaki niso prepričani, kako bo računalništvo z umetno inteligenco podpiralo takšno prihodnost.

Posledice velikih modelov AI

Širše posledice velikih modelov AI lahko vključujejo:

Povečane naložbe in priložnosti za razvoj računalniških čipov AI, ki porabijo manj energije.
Napredek umetne inteligence je upočasnil pomanjkanje računalniške moči, kar je povzročilo več sredstev za tehnologije in rešitve za varčevanje z energijo.
Razvijalci ML ustvarjajo alternativne modele poleg transformatorjev, kar lahko vodi do odkritij in inovacij za učinkovitejše algoritme.
Rešitve umetne inteligence, ki se osredotočajo na težave, osredotočene na aplikacije, ustrezno prilagajajo ali spreminjajo računalništvo, kot je potrebno, namesto zgolj povečanja velikosti.
Kompleksnejši nabori podatkov, ki programom AI omogočajo boljše napovedi, vključno z vremenskimi napovedmi, odkrivanjem vesolja, medicinskimi diagnozami in mednarodnim trgovanjem.

Vprašanja za komentiranje

Če delate v sektorju AI, kakšen je napredek pri razvoju boljših modelov ML?
Katere so druge možne prednosti modelov z obsežnimi podatki o usposabljanju, iz katerih se lahko učite?

Dodaj na seznam