Suuremahulised ai-mudelid Hiiglaslikud arvutisüsteemid on jõudmas murdepunkti

PILDIKrediit:

iStock

Suuremahulised AI mudelid: hiiglaslikud arvutisüsteemid on jõudmas murdepunkti

Masinõppe matemaatilised mudelid muutuvad igal aastal suuremaks ja keerukamaks, kuid eksperdid arvavad, et need laienevad algoritmid on saavutamas haripunkti.

Autor:
autori nimi
Quantumrun Foresight
Juuni 2, 2023

Alates 2012. aastast on tehisintellekti (AI) valdkonnas toimunud märkimisväärseid edusamme, mis on peamiselt tingitud arvutusvõimsuse suurenemisest (lühendatult "arvutamine"). Üks suurimaid mudeleid, mis toodi turule 2020. aastal, kasutas 600,000 2012 korda rohkem arvutusi kui 2018. aasta esimene mudel. OpenAI teadlased märkisid seda suundumust XNUMX. aastal ja hoiatasid, et see kasvutempo ei püsi kaua.

Suurenenud AI mudelite kontekst

Paljud masinõppe (ML) arendajad kasutavad süvaõppeks (DL) trafomudeleid nende näiliselt piiramatu potentsiaali tõttu. Nende mudelite näidete hulka kuuluvad generatiivne eelkoolitatud transformer 2 (GPT-2), GPT-3, transformaatorite kahesuunalised kodeerijad (BERT) ja Turingi loomuliku keele genereerimine (NLG). Nendel algoritmidel on sageli reaalmaailma rakendused, nagu masintõlge või aegridade ennustamine.

Tehisintellekti režiimid peavad laienema, et mahutada rohkem treeningandmeid ja paremini ennustada. See nõue on toonud kaasa miljardite parameetritega (muutujad, mida algoritmid kasutavad prognooside tegemiseks) suuremahuliste mudelite tõusu. Neid mudeleid esindavad OpenAI GPT-3 (ja selle 2022. aasta detsembris käivitatud ChatGPT interaktsioon), Hiinas põhinev PanGu-alpha, Nvidia Megatron-Turing NLG ja DeepMind Gopher. 2020. aastal oli GPT-3 väljaõppeks vaja superarvutit, mis kuulus maailma viie suurima hulka.

Need mudelid nõuavad aga suurel hulgal energiamahukaid treeningandmeid. Sügav õppimine on sõltunud selle võimest kasutada tohutut arvutusvõimsust, kuid see muutub peagi. Koolitus on kallis, tehisintellekti kiipidel on piirangud ja suurte mudelite koolitamine ummistab protsessoreid, muutes nende haldamise keeruliseks. Mida suurem on parameeter, seda kulukam on nende mudelite koolitamine. Eksperdid nõustuvad, et saabub hetk, kus ülisuured tehisintellekti mudelid võivad treenimiseks muutuda liiga kalliks ja energiamahukaks.

Häiriv mõju

2020. aastal hindas OpenAI arvukate mudelite koolitamiseks vajaliku minimaalse arvutusmahu, võttes arvesse parameetrite arvu ja andmekogumi suurust. Need võrrandid võtavad arvesse, kuidas ML nõuab, et andmed läbiksid võrgu mitu korda, kuidas iga läbipääsu arvutamine parameetrite arvu suurenedes suureneb ja kui palju andmeid on vaja parameetrite arvu kasvades.

Open AI hinnangute kohaselt, eeldades, et arendajad suudavad saavutada maksimaalse efektiivsuse, vajaks GPT-4 (100 korda suurem kui GPT-3 (17.5 triljonit parameetrit)) loomine 7,600 graafikaprotsessorit (GPU), mis töötaks vähemalt ühe aasta ja maksaks ligikaudu 200 miljonit dollarit. 100 triljoni parameetriga mudel vajaks aastaks toiteks 83,000 2 GPU-d, mis maksab rohkem kui XNUMX miljardit USA dollarit.

Sellegipoolest on tehnoloogiaettevõtted teinud koostööd ja investeerinud oma üha laienevatesse ülisuurtesse AI-mudelitesse, kuna nõudlus ML-lahenduste järele kasvab. Näiteks Hiinas asuv Baidu ja Peng Cheng Lab andsid välja PCL-BAIDU Wenxini 280 miljardi parameetriga. PCL-BAIDU kasutavad juba Baidu uudistevood, otsingumootor ja digitaalne assistent.

Uusimal Go-playing programmi versioonil, mille DeepMind lõi 2021. aasta detsembris, on 280 miljardit parameetrit. Google Switch-Transformer-GLaM mudelitel on vastavalt hämmastavad 1 triljon ja 1.2 triljon parameetrit. Pekingi AI Akadeemia Wu Dao 2.0 on veelgi massiivsem ja sellel on väidetavalt 1.75 triljonit parameetrit. Kuna nutikad linnad ja automatiseerimine põhjustavad jätkuvalt häireid, pole eksperdid kindlad, kuidas tehisintellekti arvutamine sellist tulevikku toetab.

Suuremahuliste AI-mudelite tagajärjed

Suuremate tehisintellekti mudelite laiemad tagajärjed võivad hõlmata järgmist:

Suurenenud investeeringud ja võimalused vähem energiat tarbivate tehisintellekti kiipide arendamisel.
Tehisintellekti arengut aeglustas arvutusvõimsuse puudumine, mis tõi kaasa energiasäästlike tehnoloogiate ja lahenduste suurema rahastamise.
ML-i arendajad loovad peale trafode alternatiivseid mudeleid, mis võivad viia avastusteni ja uuendusteni tõhusamate algoritmide jaoks.
AI-lahendused, mis keskenduvad rakendusekesksetele probleemidele, kohandavad arvutusi vastavalt või muudavad vastavalt vajadusele selle asemel, et lihtsalt suuremat suurust suurendada.
Keerulisemad andmestikud, mis võimaldavad tehisintellektiprogrammidel paremini ennustada, sealhulgas ilmaprognoose, kosmoseavastusi, meditsiinilisi diagnoose ja rahvusvahelist kauplemist.

Küsimused, mida kommenteerida

Kui töötate AI-sektoris, siis millised on edusammud paremate ML-mudelite väljatöötamisel?
Millised muud potentsiaalsed eelised on mudelitel, millel on ulatuslikud koolitusandmed, millest õppida?

Lisa nimekirja