Ylisuuret tekoälymallit: Jättiläiset laskentajärjestelmät ovat saavuttamassa käännekohtaa

KUVAKrediitti:
Kuva pistetilanne
iStock

Ylisuuret tekoälymallit: Jättiläiset laskentajärjestelmät ovat saavuttamassa käännekohtaa

Ylisuuret tekoälymallit: Jättiläiset laskentajärjestelmät ovat saavuttamassa käännekohtaa

Alaotsikon teksti
Koneoppimisen matemaattiset mallit kasvavat ja kehittyvät vuosi vuodelta, mutta asiantuntijat uskovat, että nämä laajat algoritmit ovat saavuttamassa huippunsa.
    • Kirjoittaja:
    • tekijän nimi
      Quantumrun Foresight
    • Kesäkuu 2, 2023

    Vuodesta 2012 lähtien tekoälyssä (AI) on tapahtunut säännöllisesti merkittäviä edistysaskeleita, mikä johtuu pääasiassa laskentatehon (lyhennettynä "compute") lisääntymisestä. Yksi suurimmista vuonna 2020 lanseeratuista malleista käytti 600,000 2012 kertaa enemmän laskentaa kuin ensimmäinen malli vuodelta 2018. OpenAI:n tutkijat panivat merkille tämän suuntauksen vuonna XNUMX ja varoittivat, että tämä kasvuvauhti ei kestä pitkään.

    Ylisuuret tekoälymallien konteksti

    Monet koneoppimisen (ML) kehittäjät käyttävät muuntajamalleja syväoppimiseen (DL) niiden näennäisen rajattoman potentiaalin vuoksi. Esimerkkejä näistä malleista ovat Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) ja Turing Natural Language Generation (NLG). Näillä algoritmeilla on usein todellisia sovelluksia, kuten konekäännös tai aikasarjan ennustaminen. 

    Tekoälytilojen on laajennettava, jotta ne voivat sisältää enemmän harjoitusdataa ja kehittyä paremmin ennusteissa. Tämä vaatimus on johtanut ylisuurten mallien nousuun, jossa on miljardeja parametreja (muuttujia, joita algoritmit käyttävät ennustamiseen). Näitä malleja edustavat OpenAI:n GPT-3 (ja sen joulukuussa 2022 lanseerattu ChatGPT-vuorovaikutus), kiinalainen PanGu-alpha, Nvidian Megatron-Turing NLG ja DeepMindin Gopher. Vuonna 2020 GPT-3:n koulutus vaati supertietokoneen, joka oli maailman viiden suurimman joukossa. 

    Nämä mallit vaativat kuitenkin valtavia määriä energiaintensiivistä harjoitustietoa. Syväoppiminen on riippunut sen kyvystä käyttää valtavaa laskentatehoa, mutta tämä muuttuu pian. Koulutus on kallista, tekoälysiruilla on rajoituksia, ja suurten mallien koulutus tukkii prosessorit, mikä vaikeuttaa niiden kaikkien hallintaa. Mitä suurempi parametri on, sitä kalliimpaa näiden mallien kouluttaminen on. Asiantuntijat ovat yhtä mieltä siitä, että tulee kohta, jossa supersuurista tekoälymalleista voi tulla liian kalliita ja energiaintensiivisiä koulutettavaksi. 

    Häiritsevä vaikutus

    Vuonna 2020 OpenAI arvioi lukuisten mallien kouluttamiseen tarvittavan vähimmäislaskennan, ottaen huomioon parametrien määrän ja tietojoukon koon. Nämä yhtälöt ottavat huomioon, kuinka ML edellyttää, että data kulkee verkon läpi useita kertoja, kuinka kunkin passin laskeminen lisääntyy parametrien määrän kasvaessa ja kuinka paljon dataa tarvitaan parametrien määrän kasvaessa.

    Open AI -arvioiden mukaan olettaen, että kehittäjät voivat saavuttaa maksimaalisen tehokkuuden, GPT-4:n (100 kertaa suuremman kuin GPT-3:n (17.5 biljoonaa parametria)) rakentaminen vaatisi 7,600 200 grafiikkasuoritusyksikköä (GPU) vähintään vuoden ajan ja maksaa noin 100 miljoonaa dollaria. 83,000 biljoonan parametrin malli vaatisi 2 XNUMX GPU:ta virransaamiseen vuoden ajan, mikä maksaa yli XNUMX miljardia dollaria.

    Siitä huolimatta teknologiayritykset ovat tehneet yhteistyötä ja kaataneet investointeja jatkuvasti laajeneviin ylimitoitettuihin tekoälymalleihinsa ML-ratkaisujen kysynnän kasvaessa. Esimerkiksi kiinalainen Baidu ja Peng Cheng Lab julkaisivat PCL-BAIDU Wenxinin, jossa on 280 miljardia parametria. PCL-BAIDU on jo Baidu-uutissyötteiden, hakukoneen ja digitaalisen avustajan käytössä. 

    Uusimmassa Go-playing-ohjelmaversiossa, jonka DeepMind loi joulukuussa 2021, on 280 miljardia parametria. Google Switch-Transformer-GLaM -malleissa on hämmästyttävät 1 biljoona ja 1.2 biljoonaa parametria. Beijing Academy of AI:n Wu Dao 2.0 on vieläkin massiivisempi, ja sillä on raportoitu olevan 1.75 biljoonaa parametria. Älykkäät kaupungit ja automaatio aiheuttavat edelleen häiriöitä, joten asiantuntijat eivät ole varmoja, kuinka tekoälylaskenta tukee tällaista tulevaisuutta. 

    Ylimitoitettujen tekoälymallien vaikutukset

    Supersized AI -mallien laajempia vaikutuksia voivat olla: 

    • Lisääntyneet investoinnit ja mahdollisuudet vähemmän energiaa kuluttavien tekoälypiirien kehittämiseen. 
    • Tekoälyn edistymistä hidasti laskentatehon puute, mikä johti lisää rahoitusta energiaa säästäviin teknologioihin ja ratkaisuihin.
    • ML-kehittäjät luovat vaihtoehtoisia malleja muuntajien lisäksi, mikä voi johtaa löytöihin ja innovaatioihin tehokkaampia algoritmeja varten.
    • AI-ratkaisut, jotka keskittyvät sovelluskeskeisiin ongelmiin, säätelevät laskentaa vastaavasti tai muokkaavat tarpeen mukaan pelkän suurentamisen sijaan.
    • Monimutkaisemmat tietojoukot, joiden avulla tekoälyohjelmat voivat tehdä parempia ennusteita, mukaan lukien sääennusteet, avaruuden löytäminen, lääketieteelliset diagnoosit ja kansainvälinen kauppa.

    Kommentoitavia kysymyksiä

    • Jos työskentelet tekoälysektorilla, mikä on edistystä parempien ML-mallien kehittämisessä?
    • Mitä muita mahdollisia etuja on malleilla, joissa on laaja koulutustieto, josta oppia?

    Insight-viittauksia

    Tässä oivalluksessa viitattiin seuraaviin suosittuihin ja institutionaalisiin linkkeihin: