Túlméretezett mesterséges intelligencia modellek: Az óriás számítástechnikai rendszerek a fordulóponthoz érnek

KÉP HITEL:
Kép hitel
iStock

Túlméretezett mesterséges intelligencia modellek: Az óriás számítástechnikai rendszerek a fordulóponthoz érnek

Túlméretezett mesterséges intelligencia modellek: Az óriás számítástechnikai rendszerek a fordulóponthoz érnek

Alcím szövege
A gépi tanulási matematikai modellek évről évre egyre nagyobbak és kifinomultabbak, de a szakértők úgy vélik, hogy ezek a kiterjedt algoritmusok hamarosan elérik a csúcsot.
    • Szerző:
    • Szerző neve
      Quantumrun Foresight
    • Június 2, 2023

    2012 óta rendszeresen jelentős előrelépések történtek a mesterséges intelligencia (AI) területén, elsősorban a növekvő számítási teljesítmény (röviden: „compute”) hatására. Az egyik legnagyobb, 2020-ban piacra dobott modell 600,000 2012-szer többet használt, mint a 2018-es első modell. Az OpenAI kutatói XNUMX-ban észlelték ezt a tendenciát, és arra figyelmeztettek, hogy ez a növekedési ütem nem lesz sokáig fenntartható.

    Túlméretezett AI modellek kontextusa

    Sok gépi tanulást (ML) fejlesztő fejlesztő transzformátormodelleket használ mély tanuláshoz (DL) a látszólag korlátlan lehetőségek miatt. Ilyen modellek például a Generative Pre-trained Transformer 2 (GPT-2), a GPT-3, a Transformers Bidirectional Encoder Representations (BERT) és a Turing Natural Language Generation (NLG). Ezek az algoritmusok gyakran valós alkalmazásokkal rendelkeznek, például gépi fordítással vagy idősor-előrejelzéssel. 

    A mesterséges intelligencia módoknak bővülniük kell, hogy több edzési adatot tudjanak befogadni, és jobbak legyenek az előrejelzések terén. Ez a követelmény a több milliárd paraméterrel (az algoritmusok által előrejelzésekhez használt változókkal) rendelkező, túlméretezett modellek térnyeréséhez vezetett. Ezeket a modelleket az OpenAI GPT-3 (és annak 2022 decemberében elindított ChatGPT interakciója), a kínai PanGu-alpha, az Nvidia Megatron-Turing NLG és a DeepMind Gopher képviseli. 2020-ban a GPT-3 képzéséhez olyan szuperszámítógépre volt szükség, amely a világ öt legnagyobbja közé tartozott. 

    Ezek a modellek azonban általában hatalmas mennyiségű energiaigényes képzési adatot igényelnek. A mély tanulás attól függött, hogy képes-e hatalmas számítási teljesítményt használni, de ez hamarosan megváltozik. A betanítás drága, az AI-chipeknek vannak korlátai, és a nagy modellek betanítása eltömíti a processzorokat, megnehezítve az összes kezelését. Minél nagyobb a paraméter, annál költségesebb ezeknek a modelleknek a betanítása. A szakértők egyetértenek abban, hogy eljön az a pont, amikor a túlméretezett mesterséges intelligencia modellek túl drágák és energiaigényesek lehetnek a betanításhoz. 

    Bomlasztó hatás

    2020-ban az OpenAI megbecsülte a számos modell betanításához szükséges minimális számítási mennyiséget, figyelembe véve a paraméterek számát és az adatkészlet méretét. Ezek az egyenletek figyelembe veszik, hogy az ML hogyan követeli meg, hogy az adatok sokszor áthaladjanak a hálózaton, hogyan növekszik az egyes lépések kiszámítása a paraméterek számának növekedésével, és mennyi adatra van szükség a paraméterek számának növekedésével.

    Az Open AI becslései szerint, feltételezve, hogy a fejlesztők maximális hatékonyságot érhetnek el, a GPT-4 (100-szor nagyobb, mint a GPT-3 (17.5 billió paraméter)) felépítéséhez 7,600 grafikus feldolgozó egységre (GPU) lenne szükség, amelyek legalább egy évig működnének, és hozzávetőlegesen költséges lenne. 200 millió USD. Egy 100 billió paraméterű modellhez 83,000 2 GPU-ra lenne szükség egy évre, ami több mint XNUMX milliárd dollárba kerül.

    Mindazonáltal a technológiai cégek együttműködnek, és befektetéseket hajtanak végre az egyre bővülő szuperméretezett mesterséges intelligencia modelljeikbe, ahogy az ML megoldások iránti kereslet nő. Például a kínai Baidu és a Peng Cheng Lab kiadta a PCL-BAIDU Wenxint, 280 milliárd paraméterrel. A PCL-BAIDU-t már használják a Baidu hírfolyamai, keresőmotorja és digitális asszisztense. 

    A Go-playing program legújabb verziója, amelyet a DeepMind 2021 decemberében hozott létre, 280 milliárd paraméterrel rendelkezik. A Google Switch-Transformer-GLaM modellek elképesztően 1 billió, illetve 1.2 billió paraméterrel rendelkeznek. A Pekingi Akadémia AI Wu Dao 2.0-ja még masszívabb, és a jelentések szerint 1.75 billió paraméterrel rendelkezik. Mivel az intelligens városok és az automatizálás továbbra is zavarokat okoz, a szakértők nem biztosak abban, hogy a mesterséges intelligencia hogyan támogatja ezt a jövőt. 

    A túlméretezett mesterséges intelligencia modellek következményei

    A túlméretezett mesterséges intelligencia modellek tágabb vonatkozásai a következők lehetnek: 

    • Megnövekedett beruházások és lehetőségek kevesebb energiát fogyasztó mesterséges intelligencia chipek fejlesztésére. 
    • A mesterséges intelligencia fejlődését lelassította a számítási teljesítmény hiánya, ami több finanszírozást eredményezett az energiatakarékos technológiák és megoldások számára.
    • Az ML fejlesztők a transzformátorokon kívül alternatív modelleket hoznak létre, amelyek felfedezésekhez és innovációkhoz vezethetnek a hatékonyabb algoritmusok érdekében.
    • Alkalmazásközpontú problémákra összpontosító mesterséges intelligencia-megoldások, a számítások megfelelő módosítása vagy szükség szerinti módosítása a túlméretezés helyett.
    • Bonyolultabb adatkészletek, amelyek lehetővé teszik az AI-programok számára, hogy jobb előrejelzéseket hajtsanak végre, beleértve az időjárás-előrejelzést, az űrkutatást, az orvosi diagnózisokat és a nemzetközi kereskedelmet.

    Kérdések, amelyekhez hozzászólni kell

    • Ha a mesterséges intelligencia szektorban dolgozik, milyen előrelépés történt a jobb ML modellek kifejlesztésében?
    • Milyen egyéb lehetséges előnyökkel járnak a kiterjedt képzési adatokkal rendelkező modellek, amelyekből tanulni lehet?

    Insight hivatkozások

    A következő népszerű és intézményi hivatkozásokra hivatkoztunk ehhez a betekintéshez: