Supersized AI-modeller: Gigantiske datasystemer når vippepunktet

BILDEKREDITT:
Bilde kreditt
iStock

Supersized AI-modeller: Gigantiske datasystemer når vippepunktet

Supersized AI-modeller: Gigantiske datasystemer når vippepunktet

Underoverskriftstekst
Matematiske modeller for maskinlæring blir større og mer sofistikerte hvert år, men eksperter tror at disse ekspansive algoritmene er i ferd med å nå toppen.
    • Forfatter:
    • forfatternavn
      Quantumrun Foresight
    • Juni 2, 2023

    Siden 2012 har betydelige fremskritt innen kunstig intelligens (AI) skjedd regelmessig, hovedsakelig drevet av økende datakraft ("compute" for kort). En av de største modellene, lansert i 2020, brukte 600,000 2012 ganger mer beregning enn den første modellen fra 2018. Forskere ved OpenAI noterte denne trenden i XNUMX og advarte om at denne vekstraten ikke ville være bærekraftig på lenge.

    Kontekst for supersized AI-modeller

    Mange maskinlæringsutviklere (ML) bruker transformatormodeller for dyp læring (DL) på grunn av deres tilsynelatende ubegrensede potensial. Eksempler på disse modellene inkluderer Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) og Turing Natural Language Generation (NLG). Disse algoritmene har ofte virkelige applikasjoner som maskinoversettelse eller tidsserieprediksjon. 

    Kunstig intelligens-moduser må utvides for å imøtekomme flere treningsdata og bli bedre på spådommer. Dette kravet har ført til fremveksten av overdimensjonerte modeller med milliarder av parametere (variabler brukt av algoritmer for å lage spådommer). Disse modellene er representert av OpenAIs GPT-3 (og dens ChatGPT-interaksjon lansert i desember 2022), Kina-baserte PanGu-alpha, Nvidias Megatron-Turing NLG og DeepMinds Gopher. I 2020 krevde opplæring av GPT-3 en superdatamaskin som var blant de fem største i verden. 

    Imidlertid har disse modellene en tendens til å kreve enorme mengder energikrevende treningsdata. Dyplæring har vært avhengig av dens evne til å bruke enorm datakraft, men dette vil snart endre seg. Trening er dyrt, det er grenser for AI-brikker, og trening av store modeller tetter igjen prosessorer, noe som gjør det vanskelig å administrere dem alle. Jo større parameter, jo dyrere er det å trene disse modellene. Eksperter er enige om at det vil komme et punkt hvor store AI-modeller kan bli for dyre og energikrevende å trene. 

    Forstyrrende påvirkning

    I 2020 estimerte OpenAI minimumsberegningen som kreves for å trene en rekke modeller, med hensyn til antall parametere og datasettstørrelse. Disse ligningene står for hvordan ML krever at data passerer gjennom nettverket mange ganger, hvordan beregningen for hvert pass øker etter hvert som antall parametere øker, og hvor mye data som trengs etter hvert som antallet parametere vokser.

    I følge Open AI-estimater, forutsatt at utviklere kan oppnå maksimal effektivitet, vil det å bygge GPT-4 (100 ganger større enn GPT-3 (17.5 billioner parametere)) kreve 7,600 grafikkbehandlingsenheter (GPUer) som kjører i minst ett år og koste ca. USD 200 millioner. En 100 billioner parametermodell ville trenge 83,000 2 GPUer for å drive den i et år, og koste mer enn USD XNUMX milliarder.

    Ikke desto mindre har teknologifirmaer samarbeidet og investert i sine stadig voksende supersized AI-modeller etter hvert som etterspørselen etter ML-løsninger øker. For eksempel ga Kina-baserte Baidu og Peng Cheng Lab ut PCL-BAIDU Wenxin, med 280 milliarder parametere. PCL-BAIDU brukes allerede av Baidus nyhetsfeeds, søkemotor og digitale assistent. 

    Den siste Go-playing-programversjonen, som DeepMind opprettet i desember 2021, har 280 milliarder parametere. Google Switch-Transformer-GLaM-modellene har henholdsvis svimlende 1 billion og 1.2 billioner parametere. Wu Dao 2.0 fra Beijing Academy of AI er enda mer massiv og har blitt rapportert å ha 1.75 billioner parametere. Ettersom smarte byer og automatisering fortsetter å presse forstyrrelser, er eksperter usikre på hvordan AI-databehandling vil støtte en slik fremtid. 

    Implikasjoner av supersized AI-modeller

    Større implikasjoner av supersized AI-modeller kan omfatte: 

    • Økte investeringer og muligheter for å utvikle AI-databrikker som bruker mindre energi. 
    • AI-fremgangen ble bremset av mangelen på datakraft, noe som førte til mer finansiering for energibesparende teknologier og løsninger.
    • ML-utviklere lager alternative modeller bortsett fra transformatorer, som kan føre til oppdagelser og innovasjon for mer effektive algoritmer.
    • AI-løsninger som fokuserer på applikasjonssentriske problemer, justerer beregningen tilsvarende eller modifiserer etter behov i stedet for bare å overstørrelse.
    • Mer komplekse datasett som lar AI-programmer utføre bedre spådommer, inkludert værmeldinger, romoppdagelse, medisinske diagnoser og internasjonal handel.

    Spørsmål å kommentere

    • Hvis du jobber i AI-sektoren, hva er noen fremskritt med å utvikle bedre ML-modeller?
    • Hva er de andre potensielle fordelene med modeller med omfattende treningsdata å lære av?

    Innsiktsreferanser

    Følgende populære og institusjonelle lenker ble referert for denne innsikten: