Supersized AI-modellen: Gigantische computersystemen bereiken het omslagpunt

BEELDKREDIET:
Image credit
iStock

Supersized AI-modellen: Gigantische computersystemen bereiken het omslagpunt

Supersized AI-modellen: Gigantische computersystemen bereiken het omslagpunt

Onderkoptekst
Wiskundige modellen voor machinaal leren worden jaarlijks groter en geavanceerder, maar experts denken dat deze uitgebreide algoritmen op het punt staan ​​hun hoogtepunt te bereiken.
    • Auteur:
    • auteursnaam
      Quantumrun-prognose
    • 2 June 2023

    Sinds 2012 zijn er regelmatig aanzienlijke vorderingen gemaakt op het gebied van kunstmatige intelligentie (AI), voornamelijk gedreven door toenemende rekenkracht (“compute” in het kort). Een van de grootste modellen, gelanceerd in 2020, gebruikte 600,000 keer meer rekenkracht dan het eerste model uit 2012. Onderzoekers van OpenAI merkten deze trend in 2018 op en waarschuwden dat deze groei niet lang houdbaar zou zijn.

    Supergrote AI-modellen context

    Veel ontwikkelaars van machine learning (ML) gebruiken transformatormodellen voor deep learning (DL) vanwege hun schijnbaar grenzeloze potentieel. Voorbeelden van deze modellen zijn Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) en Turing Natural Language Generation (NLG). Deze algoritmen hebben vaak real-world toepassingen zoals machinevertaling of tijdreeksvoorspelling. 

    Modi voor kunstmatige intelligentie moeten worden uitgebreid om meer trainingsgegevens te bevatten en beter te worden in voorspellingen. Deze vereiste heeft geleid tot de opkomst van supergrote modellen met miljarden parameters (variabelen die door algoritmen worden gebruikt om voorspellingen te doen). Deze modellen worden vertegenwoordigd door OpenAI's GPT-3 (en de ChatGPT-interactie gelanceerd in december 2022), het in China gevestigde PanGu-alpha, Nvidia's Megatron-Turing NLG en DeepMind's Gopher. In 2020 vereiste het trainen van GPT-3 een supercomputer die tot de vijf grootste ter wereld behoorde. 

    Deze modellen vereisen echter vaak enorme hoeveelheden energie-intensieve trainingsgegevens. Diep leren was afhankelijk van het vermogen om enorme rekenkracht te gebruiken, maar dit zal binnenkort veranderen. Training is duur, er zijn grenzen aan AI-chips en het trainen van grote modellen verstopt de processors, waardoor het moeilijk wordt om ze allemaal te beheren. Hoe groter de parameter, hoe duurder het is om deze modellen te trainen. Deskundigen zijn het erover eens dat er een punt zal komen waarop supergrote AI-modellen te duur en te energie-intensief worden om te trainen. 

    Disruptieve impact

    In 2020 schatte OpenAI de minimale hoeveelheid rekenkracht die nodig is om talloze modellen te trainen, rekening houdend met het aantal parameters en de grootte van de dataset. Deze vergelijkingen verklaren hoe ML vereist dat gegevens vele malen door het netwerk gaan, hoe de berekening voor elke doorgang stijgt naarmate het aantal parameters toeneemt, en hoeveel gegevens er nodig zijn naarmate het aantal parameters toeneemt.

    Volgens schattingen van Open AI, ervan uitgaande dat ontwikkelaars maximale efficiëntie kunnen bereiken, zou het bouwen van GPT-4 (100 keer groter dan GPT-3 (17.5 biljoen parameters)) 7,600 grafische verwerkingseenheden (GPU's) vereisen die minstens een jaar draaien en ongeveer 200 miljoen dollar. Een model met 100 biljoen parameters zou 83,000 GPU's nodig hebben om het een jaar lang van stroom te voorzien, wat meer dan 2 miljard dollar kost.

    Desalniettemin werken technologiebedrijven samen en investeren ze in hun steeds groter wordende supergrote AI-modellen naarmate de vraag naar ML-oplossingen groeit. Het in China gevestigde Baidu en het Peng Cheng Lab hebben bijvoorbeeld PCL-BAIDU Wenxin uitgebracht, met 280 miljard parameters. PCL-BAIDU wordt al gebruikt door Baidu's nieuwsfeeds, zoekmachine en digitale assistent. 

    De nieuwste Go-playing-programmaversie, die DeepMind in december 2021 heeft gemaakt, heeft 280 miljard parameters. De Google Switch-Transformer-GLaM-modellen hebben respectievelijk maar liefst 1 biljoen en 1.2 biljoen parameters. Wu Dao 2.0 van de Beijing Academy of AI is zelfs nog groter en heeft naar verluidt 1.75 biljoen parameters. Terwijl slimme steden en automatisering voor verstoringen zorgen, weten experts niet zeker hoe AI-computing een dergelijke toekomst zal ondersteunen. 

    Implicaties van supergrote AI-modellen

    Bredere implicaties van supergrote AI-modellen kunnen zijn: 

    • Meer investeringen en kansen in de ontwikkeling van AI-computerchips die minder energie verbruiken. 
    • De voortgang van AI wordt vertraagd door een gebrek aan rekenkracht, wat leidt tot meer financiering voor energiebesparende technologieën en oplossingen.
    • ML-ontwikkelaars maken alternatieve modellen naast transformatoren, wat kan leiden tot ontdekkingen en innovatie voor efficiëntere algoritmen.
    • AI-oplossingen die zich richten op toepassingsgerichte problemen, de rekenkracht dienovereenkomstig aanpassen of naar behoefte aanpassen in plaats van alleen maar te vergroten.
    • Complexere datasets waardoor AI-programma's betere voorspellingen kunnen doen, waaronder weersvoorspellingen, ontdekking van de ruimte, medische diagnoses en internationale handel.

    Vragen om op te reageren

    • Als u in de AI-sector werkt, wat is dan enige vooruitgang bij het ontwikkelen van betere ML-modellen?
    • Wat zijn de andere potentiële voordelen van modellen met uitgebreide trainingsgegevens om van te leren?

    Insight-referenties

    Voor dit inzicht werd verwezen naar de volgende populaire en institutionele links: