Superstore ai-modeller gigantiske computersystemer er ved at nå vendepunktet

BILLEDKREDIT:

iStock

Superstore AI-modeller: Kæmpe computersystemer er ved at nå vendepunktet

Maskinlæring matematiske modeller bliver større og mere sofistikerede årligt, men eksperter mener, at disse ekspansive algoritmer er ved at toppe.

Forfatter:
Forfatter navn
Quantumrun Foresight
2. Juni, 2023

Siden 2012 er der regelmæssigt sket betydelige fremskridt inden for kunstig intelligens (AI), hovedsageligt drevet af øget computerkraft ("compute" for kort). En af de største modeller, der blev lanceret i 2020, brugte 600,000 gange mere beregning end den første model fra 2012. Forskere ved OpenAI bemærkede denne tendens i 2018 og advarede om, at denne vækstrate ikke ville være holdbar i lang tid.

Kontekst for supersized AI-modeller

Mange maskinlæringsudviklere (ML) bruger transformermodeller til deep learning (DL) på grund af deres tilsyneladende ubegrænsede potentiale. Eksempler på disse modeller omfatter Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) og Turing Natural Language Generation (NLG). Disse algoritmer har ofte applikationer fra den virkelige verden, såsom maskinoversættelse eller forudsigelse af tidsserier.

Kunstig intelligens-tilstande skal udvides for at kunne rumme flere træningsdata og blive bedre til forudsigelser. Dette krav har ført til fremkomsten af modeller i overstørrelse med milliarder af parametre (variabler brugt af algoritmer til at lave forudsigelser). Disse modeller er repræsenteret af OpenAI's GPT-3 (og dets ChatGPT-interaktion lanceret i december 2022), Kina-baserede PanGu-alpha, Nvidias Megatron-Turing NLG og DeepMind's Gopher. I 2020 krævede træning af GPT-3 en supercomputer, der var blandt de fem største i verden.

Disse modeller har dog en tendens til at kræve enorme mængder energikrævende træningsdata. Dyb læring har været afhængig af dens evne til at bruge enorm computerkraft, men det vil snart ændre sig. Træning er dyrt, der er grænser for AI-chips, og træning af store modeller tilstopper processorer, hvilket gør det svært at administrere dem alle. Jo større parameter, jo dyrere er det at træne disse modeller. Eksperter er enige om, at der vil komme et punkt, hvor AI-modeller i superstørrelse kan blive for dyre og energikrævende at træne.

Forstyrrende påvirkning

I 2020 estimerede OpenAI den mindste mængde af beregninger, der kræves for at træne adskillige modeller, med hensyn til antallet af parametre og datasætstørrelse. Disse ligninger redegør for, hvordan ML kræver, at data passerer gennem netværket mange gange, hvordan beregningen for hver passage stiger, når antallet af parametre stiger, og hvor mange data, der er nødvendige, når antallet af parametre vokser.

Ifølge Open AI-estimat, forudsat at udviklere kan opnå maksimal effektivitet, ville bygning af GPT-4 (100 gange større end GPT-3 (17.5 billioner parametre)) kræve 7,600 grafikbehandlingsenheder (GPU'er), der kører i mindst et år og koste ca. USD 200 millioner. En 100 billioner parametermodel ville have brug for 83,000 GPU'er for at drive den i et år, hvilket koster mere end 2 milliarder USD.

Ikke desto mindre har tech-virksomheder samarbejdet og investeret i deres stadigt voksende supersized AI-modeller, efterhånden som efterspørgslen efter ML-løsninger vokser. For eksempel udgav Kina-baserede Baidu og Peng Cheng Lab PCL-BAIDU Wenxin med 280 milliarder parametre. PCL-BAIDU bliver allerede brugt af Baidus nyhedsfeeds, søgemaskine og digitale assistent.

Den seneste Go-playing programversion, som DeepMind skabte i december 2021, har 280 milliarder parametre. Google Switch-Transformer-GLaM-modellerne har henholdsvis svimlende 1 trillion og 1.2 billioner parametre. Wu Dao 2.0 fra Beijing Academy of AI er endnu mere massiv og er blevet rapporteret at have 1.75 billioner parametre. Mens smarte byer og automatisering fortsætter med at skubbe forstyrrelser, er eksperter usikre på, hvordan AI-beregning vil understøtte en sådan fremtid.

Implikationer af supersized AI-modeller

Bredere implikationer af supersized AI-modeller kan omfatte:

Øgede investeringer og muligheder i at udvikle AI-computerchips, der forbruger mindre energi.
AI-fremskridtet blev bremset af manglen på computerkraft, hvilket førte til flere midler til energibesparende teknologier og løsninger.
ML-udviklere skaber alternative modeller bortset fra transformatorer, som kan føre til opdagelser og innovation for mere effektive algoritmer.
AI-løsninger, der fokuserer på applikationscentrerede problemer, justerer beregningen i overensstemmelse hermed eller modificerer efter behov i stedet for blot at overstørrelse.
Mere komplekse datasæt, der gør det muligt for AI-programmer at udføre bedre forudsigelser, herunder vejrudsigter, rumopdagelse, medicinske diagnoser og international handel.

Spørgsmål at kommentere på

Hvis du arbejder i AI-sektoren, hvad er nogle fremskridt med at udvikle bedre ML-modeller?
Hvad er de andre potentielle fordele ved modeller med omfattende træningsdata at lære af?

Føj til liste