Modele AI superdimensionate: sistemele de calcul gigantice ajung la punctul de vârf

CREDIT DE IMAGINE:
Imagine de credit
iStock

Modele AI superdimensionate: sistemele de calcul gigantice ajung la punctul de vârf

Modele AI superdimensionate: sistemele de calcul gigantice ajung la punctul de vârf

Textul subtitlului
Modelele matematice de învățare automată devin din ce în ce mai mari și mai sofisticate în fiecare an, dar experții cred că acești algoritmi expansivi sunt pe cale să atingă apogeul.
    • Autor:
    • Numele autorului
      Previziune Quantumrun
    • 2 Iunie, 2023

    Începând cu 2012, au avut loc în mod regulat progrese semnificative în domeniul inteligenței artificiale (AI), determinate în principal de creșterea puterii de calcul („compute” pe scurt). Unul dintre cele mai mari modele, lansat în 2020, a folosit de 600,000 de ori mai mult calcul decât primul model din 2012. Cercetătorii de la OpenAI au remarcat această tendință în 2018 și au avertizat că această rată de creștere nu va fi sustenabilă pentru mult timp.

    Contextul modelelor AI supradimensionate

    Mulți dezvoltatori de învățare automată (ML) folosesc modele transformatoare pentru învățarea profundă (DL) datorită potențialului lor aparent nelimitat. Exemple de aceste modele includ Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) și Turing Natural Language Generation (NLG). Acești algoritmi au adesea aplicații din lumea reală, cum ar fi traducerea automată sau predicția serii de timp. 

    Modurile de inteligență artificială trebuie să se extindă pentru a găzdui mai multe date de antrenament și a deveni mai bune la predicții. Această cerință a condus la creșterea modelelor supradimensionate cu miliarde de parametri (variabile utilizate de algoritmi pentru a face predicții). Aceste modele sunt reprezentate de GPT-3 de la OpenAI (și interacțiunea sa ChatGPT lansată în decembrie 2022), PanGu-alpha din China, Megatron-Turing NLG de la Nvidia și Gopher de la DeepMind. În 2020, antrenamentul GPT-3 a necesitat un supercomputer care să fie printre cele mai mari cinci din lume. 

    Cu toate acestea, aceste modele tind să necesite cantități masive de date de antrenament consumatoare de energie. Învățarea profundă a depins de capacitatea sa de a utiliza o putere enormă de calcul, dar acest lucru se va schimba în curând. Antrenamentul este costisitor, există limite pentru cipurile AI, iar antrenarea modelelor mari blochează procesoarele, ceea ce face dificilă gestionarea acestora pe toate. Cu cât este mai mare parametrul, cu atât este mai costisitoare antrenarea acestor modele. Experții sunt de acord că va veni un moment în care modelele AI superdimensionate pot deveni prea scumpe și consumatoare de energie pentru a fi antrenate. 

    Impact perturbator

    În 2020, OpenAI a estimat cantitatea minimă de calcul necesară pentru a antrena numeroase modele, luând în considerare numărul de parametri și dimensiunea setului de date. Aceste ecuații țin cont de modul în care ML solicită ca datele să treacă prin rețea de mai multe ori, modul în care calculul pentru fiecare trecere crește pe măsură ce crește numărul de parametri și câte date sunt necesare pe măsură ce numărul de parametri crește.

    Conform estimărilor Open AI, presupunând că dezvoltatorii pot atinge eficiența maximă, construirea GPT-4 (de 100 de ori mai mare decât GPT-3 (17.5 trilioane de parametri)) ar necesita 7,600 de unități de procesare grafică (GPU) care rulează timp de cel puțin un an și ar costa aproximativ 200 milioane USD. Un model cu 100 de trilioane de parametri ar avea nevoie de 83,000 de GPU pentru a-l alimenta timp de un an, costând peste 2 miliarde USD.

    Cu toate acestea, firmele de tehnologie au colaborat și au investit în modelele lor de IA superdimensionate, în continuă expansiune, pe măsură ce cererea pentru soluții ML crește. De exemplu, Baidu din China și Peng Cheng Lab au lansat PCL-BAIDU Wenxin, cu 280 de miliarde de parametri. PCL-BAIDU este deja folosit de fluxurile de știri, motorul de căutare și asistentul digital Baidu. 

    Cea mai recentă versiune a programului Go-playing, creată de DeepMind în decembrie 2021, are 280 de miliarde de parametri. Modelele Google Switch-Transformer-GLaM au parametri uimitori de 1 trilion, respectiv 1.2 trilioane. Wu Dao 2.0 de la Academia de IA din Beijing este și mai masiv și s-a raportat că are 1.75 trilioane de parametri. Pe măsură ce orașele inteligente și automatizarea continuă să provoace perturbări, experții nu sunt siguri cum va susține calculul AI un astfel de viitor. 

    Implicațiile modelelor AI superdimensionate

    Implicațiile mai largi ale modelelor de IA supradimensionate pot include: 

    • Investiții și oportunități sporite în dezvoltarea de cipuri de computer AI care consumă mai puțină energie. 
    • Progresul AI a fost încetinit de lipsa puterii de calcul, ceea ce a condus la mai multe finanțări pentru tehnologii și soluții care economisesc energie.
    • Dezvoltatorii ML creează modele alternative în afară de transformatoare, ceea ce poate duce la descoperiri și inovații pentru algoritmi mai eficienți.
    • Soluții de inteligență artificială care se concentrează pe probleme centrate pe aplicație, ajustând calculul în consecință sau modificându-le după cum este necesar, în loc să se limiteze doar la supradimensionare.
    • Seturi de date mai complexe care permit programelor AI să efectueze predicții mai bune, inclusiv prognoze meteo, descoperiri spațiale, diagnostice medicale și comerț internațional.

    Întrebări de comentat

    • Dacă lucrați în sectorul AI, care sunt unele progrese în dezvoltarea unor modele ML mai bune?
    • Care sunt celelalte beneficii potențiale ale modelelor cu date extinse de antrenament din care să înveți?

    Referințe de perspectivă

    Următoarele linkuri populare și instituționale au fost menționate pentru această perspectivă: