Didesnio dydžio ai modeliai milžiniškos skaičiavimo sistemos pasiekia lūžio tašką

VAIZDO KREDITAS:

iStock

Didesnio dydžio dirbtinio intelekto modeliai: milžiniškos skaičiavimo sistemos pasiekia lūžio tašką

Mašininio mokymosi matematiniai modeliai kasmet tampa vis didesni ir sudėtingesni, tačiau ekspertai mano, kad šie platūs algoritmai netrukus pasieks piką.

Autorius:
autoriaus vardas
Quantumrun Foresight
Birželio 2, 2023

Nuo 2012 m. nuolat buvo daroma didelė pažanga dirbtinio intelekto (DI) srityje, kurią daugiausia lėmė didėjanti skaičiavimo galia (sutrumpintai „compute“). Vienas didžiausių modelių, išleistas 2020 m., naudojo 600,000 2012 kartų daugiau skaičiavimo nei pirmasis 2018 m. modelis. OpenAI tyrėjai pastebėjo šią tendenciją XNUMX m. ir perspėjo, kad šis augimo tempas nebus tvarus ilgai.

Didesnio dydžio AI modelių kontekstas

Daugelis mašininio mokymosi (ML) kūrėjų naudoja transformatorių modelius giliajam mokymuisi (DL), nes jų potencialas atrodo neribotas. Tokių modelių pavyzdžiai yra generatyvus iš anksto apmokytas transformatorius 2 (GPT-2), GPT-3, transformatorių dvikryptis kodavimo įrenginys (BERT) ir Turingo natūralios kalbos generavimas (NLG). Šie algoritmai dažnai turi realaus pasaulio programas, tokias kaip mašininis vertimas arba laiko eilučių numatymas.

Dirbtinio intelekto režimai turi plėstis, kad tilptų daugiau treniruočių duomenų ir geriau prognozuotų. Dėl šio reikalavimo atsirado didesni modeliai su milijardais parametrų (kintamieji, kuriuos algoritmai naudoja prognozėms). Šiuos modelius reprezentuoja „OpenAI“ GPT-3 (ir jo „ChatGPT“ sąveika, pradėta 2022 m. gruodžio mėn.), Kinijoje pagrįsta „PanGu-alpha“, „Nvidia“ Megatron-Turing NLG ir „DeepMind“ „Gopher“. 2020 m. mokant GPT-3 reikėjo superkompiuterio, kuris buvo tarp penkių didžiausių pasaulyje.

Tačiau šiems modeliams paprastai reikia daug energijos reikalaujančių treniruočių duomenų. Gilus mokymasis priklausė nuo jo gebėjimo panaudoti didžiulę skaičiavimo galią, tačiau tai greitai pasikeis. Mokymas yra brangus, AI lustams yra apribojimų, o didelių modelių mokymas užkemša procesorius, todėl sunku juos visus valdyti. Kuo didesnis parametras, tuo brangiau mokyti šiuos modelius. Ekspertai sutinka, kad ateis taškas, kai dideli dirbtinio intelekto modeliai gali tapti per brangūs ir imlūs treniruotėms.

Trikdantis poveikis

2020 m. OpenAI įvertino minimalų skaičiavimo kiekį, reikalingą daugeliui modelių apmokyti, atsižvelgiant į parametrų skaičių ir duomenų rinkinio dydį. Šiose lygtyse atsižvelgiama į tai, kaip ML reikalauja, kad duomenims daug kartų pereiti per tinklą, kaip skaičiuojama kiekvienam praėjimui didėjant parametrų skaičiui ir kiek duomenų reikia, kai parametrų skaičius auga.

Remiantis Open AI skaičiavimais, darant prielaidą, kad kūrėjai gali pasiekti maksimalų efektyvumą, norint sukurti GPT-4 (100 kartų didesnį už GPT-3 (17.5 trilijono parametrų)) reikės 7,600 200 grafikos apdorojimo vienetų (GPU), veikiančių mažiausiai vienerius metus ir kainuotų maždaug 100 milijonų JAV dolerių. 83,000 trilijonų parametrų modeliui prireiktų 2 XNUMX GPU, kad jis galėtų maitinti metus, o tai kainuotų daugiau nei XNUMX mlrd. USD.

Nepaisant to, augant ML sprendimų paklausai, technologijų įmonės bendradarbiauja ir investuoja į savo nuolat plečiamus didesnio dydžio AI modelius. Pavyzdžiui, Kinijoje įsikūrusi „Baidu“ ir „Peng Cheng Lab“ išleido „PCL-BAIDU Wenxin“ su 280 mlrd. PCL-BAIDU jau naudoja Baidu naujienų kanalai, paieškos variklis ir skaitmeninis asistentas.

Naujausia „Go-playing“ programos versija, kurią „DeepMind“ sukūrė 2021 m. gruodį, turi 280 milijardų parametrų. „Google Switch-Transformer-GLaM“ modeliai turi stulbinančius atitinkamai 1 trilijoną ir 1.2 trilijono parametrų. Wu Dao 2.0 iš Pekino AI akademijos yra dar masyvesnis ir, kaip pranešama, turi 1.75 trilijono parametrų. Kadangi išmanieji miestai ir automatizacija ir toliau skatina trikdžius, ekspertai nėra tikri, kaip dirbtinio intelekto skaičiavimas palaikys tokią ateitį.

Didesnių dydžių AI modelių pasekmės

Didesnio dydžio dirbtinio intelekto modeliai gali turėti platesnį poveikį:

Didesnės investicijos ir galimybės kuriant AI kompiuterių lustus, kurie suvartoja mažiau energijos.
DI pažangą sulėtėjo skaičiavimo galios trūkumas, todėl buvo skiriama daugiau lėšų energiją taupančioms technologijoms ir sprendimams.
ML kūrėjai, be transformatorių, kuria alternatyvius modelius, o tai gali paskatinti atradimus ir naujovių efektyvesniems algoritmams.
Dirbtinio intelekto sprendimai, skirti į programas orientuotas problemas, atitinkamai koreguoti skaičiavimus arba modifikuoti, jei reikia, užuot tiesiog padidinę dydį.
Sudėtingesni duomenų rinkiniai, leidžiantys dirbtinio intelekto programoms geriau prognozuoti, įskaitant orų prognozes, kosmoso atradimą, medicinines diagnozes ir tarptautinę prekybą.

Klausimai komentuoti

Jei dirbate dirbtinio intelekto sektoriuje, kokia pažanga padaryta kuriant geresnius ML modelius?
Kokie kiti galimi modelių, turinčių daug mokymo duomenų, privalumų, iš kurių galima pasimokyti?

Pridėti į sąrašą