Superstora AI-modeller: Jättestora datorsystem närmar sig vändpunkten

BILDKREDIT:
Bild kredit
iStock

Superstora AI-modeller: Jättestora datorsystem närmar sig vändpunkten

Superstora AI-modeller: Jättestora datorsystem närmar sig vändpunkten

Underrubrik text
Matematiska modeller för maskininlärning blir större och mer sofistikerade för varje år, men experter tror att dessa expansiva algoritmer är på väg att nå toppen.
    • Författare:
    • författarnamn
      Quantumrun Framsyn
    • Juni 2, 2023

    Sedan 2012 har betydande framsteg inom artificiell intelligens (AI) skett regelbundet, främst drivna av ökad datorkraft (”compute” för kort). En av de största modellerna, som lanserades 2020, använde 600,000 2012 gånger mer beräkning än den första modellen från 2018. Forskare vid OpenAI noterade denna trend XNUMX och varnade för att denna tillväxttakt inte skulle vara hållbar länge.

    Kontext för supersized AI-modeller

    Många utvecklare av maskininlärning (ML) använder transformatormodeller för djupinlärning (DL) på grund av deras till synes obegränsade potential. Exempel på dessa modeller inkluderar Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) och Turing Natural Language Generation (NLG). Dessa algoritmer har ofta verkliga tillämpningar som maskinöversättning eller tidsserieprediktion. 

    Artificiell intelligens-lägen måste utökas för att rymma mer träningsdata och bli bättre på förutsägelser. Detta krav har lett till uppkomsten av överdimensionerade modeller med miljarder parametrar (variabler som används av algoritmer för att göra förutsägelser). Dessa modeller representeras av OpenAIs GPT-3 (och dess ChatGPT-interaktion som lanserades i december 2022), Kina-baserade PanGu-alpha, Nvidias Megatron-Turing NLG och DeepMinds Gopher. År 2020 krävde träningen av GPT-3 en superdator som var bland de fem största i världen. 

    Dessa modeller tenderar dock att kräva enorma mängder energikrävande träningsdata. Deep learning har varit beroende av dess förmåga att använda enorm datorkraft, men detta kommer snart att förändras. Utbildning är dyrt, det finns gränser för AI-chips, och träning av stora modeller täpper till processorer, vilket gör det svårt att hantera dem alla. Ju större parameter, desto dyrare är det att träna dessa modeller. Experter är överens om att det kommer att komma en punkt där AI-modeller i superstorlek kan bli för dyra och energikrävande att träna. 

    Störande inverkan

    År 2020 uppskattade OpenAI den minsta mängd beräkning som krävs för att träna många modeller, med hänsyn till antalet parametrar och datauppsättningsstorlek. Dessa ekvationer redogör för hur ML kräver att data passerar genom nätverket många gånger, hur beräkningen för varje pass ökar när antalet parametrar ökar och hur mycket data som behövs när antalet parametrar växer.

    Enligt Open AI-uppskattningar, förutsatt att utvecklare kan uppnå maximal effektivitet, skulle bygga GPT-4 (100 gånger större än GPT-3 (17.5 biljoner parametrar)) kräva 7,600 200 grafikprocessorer (GPU) i drift i minst ett år och kosta ungefär USD 100 miljoner. En modell med 83,000 biljoner parameter skulle behöva 2 XNUMX GPU:er för att driva den under ett år, vilket kostar mer än XNUMX miljarder USD.

    Icke desto mindre har teknikföretag samarbetat och investerat i sina ständigt växande supersized AI-modeller i takt med att efterfrågan på ML-lösningar växer. Till exempel släppte Kina-baserade Baidu och Peng Cheng Lab PCL-BAIDU Wenxin, med 280 miljarder parametrar. PCL-BAIDU används redan av Baidus nyhetsflöden, sökmotor och digitala assistent. 

    Den senaste versionen av Go-playing-program, som DeepMind skapade i december 2021, har 280 miljarder parametrar. Google Switch-Transformer-GLaM-modellerna har häpnadsväckande 1 biljon respektive 1.2 biljoner parametrar. Wu Dao 2.0 från Beijing Academy of AI är ännu mer massiv och har rapporterats ha 1.75 biljoner parametrar. Eftersom smarta städer och automatisering fortsätter att driva på störningar är experter osäkra på hur AI-beräkning kommer att stödja en sådan framtid. 

    Implikationer av supersized AI-modeller

    Vidare implikationer av superstora AI-modeller kan inkludera: 

    • Ökade investeringar och möjligheter för att utveckla AI-datachips som förbrukar mindre energi. 
    • AI-framsteg bromsades av bristen på datorkraft, vilket ledde till mer finansiering för energibesparande teknologier och lösningar.
    • ML-utvecklare skapar alternativa modeller förutom transformatorer, vilket kan leda till upptäckter och innovation för effektivare algoritmer.
    • AI-lösningar som fokuserar på applikationscentrerade problem, justerar beräkningen därefter eller modifierar efter behov istället för att bara överdimensionera.
    • Mer komplexa datauppsättningar som gör att AI-program kan utföra bättre förutsägelser, inklusive väderprognoser, rymdupptäckt, medicinska diagnoser och internationell handel.

    Frågor att kommentera

    • Om du arbetar inom AI-sektorn, vilka framsteg har du gjort med att utveckla bättre ML-modeller?
    • Vilka är de andra potentiella fördelarna med modeller med omfattande träningsdata att lära av?

    Insiktsreferenser

    Följande populära och institutionella länkar hänvisades till för denna insikt: