Supergroot AI-modelle reuse rekenaarstelsels bereik kantelpunt

BEELDKREDIET:

iStock

Supergroot KI-modelle: Reusagtige rekenaarstelsels bereik die kantelpunt

Masjienleer wiskundige modelle word jaarliks groter en meer gesofistikeerd, maar kenners dink hierdie uitgebreide algoritmes is op die punt om 'n hoogtepunt te bereik.

Author:
Author naam
Quantumrun Foresight
Junie 2, 2023

Sedert 2012 het beduidende vooruitgang in kunsmatige intelligensie (KI) gereeld plaasgevind, hoofsaaklik aangedryf deur toenemende rekenaarkrag (“reken” vir kort). Een van die grootste modelle, wat in 2020 bekendgestel is, het 600,000 2012 keer meer rekenaar gebruik as die eerste model van 2018. Navorsers by OpenAI het hierdie tendens in XNUMX opgemerk en gewaarsku dat hierdie groeikoers nie vir lank volhoubaar sal wees nie.

Supergrootte KI-modelle konteks

Baie masjienleer-ontwikkelaars (ML) gebruik transformatormodelle vir diep leer (DL) as gevolg van hul oënskynlik onbeperkte potensiaal. Voorbeelde van hierdie modelle sluit in Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT), en Turing Natural Language Generation (NLG). Hierdie algoritmes het dikwels werklike toepassings soos masjienvertaling of tydreeksvoorspelling.

Kunsmatige intelligensie-modusse moet uitbrei om meer opleidingsdata te akkommodeer en beter te word in voorspellings. Hierdie vereiste het gelei tot die opkoms van supergrootte modelle met miljarde parameters (veranderlikes wat deur algoritmes gebruik word om voorspellings te maak). Hierdie modelle word verteenwoordig deur OpenAI se GPT-3 (en sy ChatGPT-interaksie wat in Desember 2022 bekendgestel is), China-gebaseerde PanGu-alpha, Nvidia se Megatron-Turing NLG en DeepMind se Gopher. In 2020 het opleiding GPT-3 'n superrekenaar vereis wat onder die vyf grootstes ter wêreld was.

Hierdie modelle is egter geneig om massiewe hoeveelhede energie-intensiewe opleidingsdata te benodig. Diep leer het afgehang van sy vermoë om enorme rekenaarkrag te gebruik, maar dit sal binnekort verander. Opleiding is duur, daar is perke aan KI-skyfies, en opleiding van groot modelle verstop verwerkers, wat dit moeilik maak om hulle almal te bestuur. Hoe groter die parameter, hoe duurder is dit om hierdie modelle op te lei. Kenners stem saam dat daar 'n punt sal kom waar supergrootte KI-modelle te duur en energie-intensief kan word om op te lei.

Ontwrigtende impak

In 2020 het OpenAI die minimum hoeveelheid berekening beraam wat nodig is om talle modelle op te lei, met inagneming van die aantal parameters en datastelgrootte. Hierdie vergelykings is verantwoordelik vir hoe ML vereis dat data baie keer deur die netwerk gaan, hoe berekening vir elke deurgang styg soos die aantal parameters toeneem, en hoeveel data benodig word soos die aantal parameters groei.

Volgens Open AI-ramings, met die veronderstelling dat ontwikkelaars maksimum doeltreffendheid kan bereik, sal die bou van GPT-4 (100 keer groter as GPT-3 (17.5 biljoen parameters)) 7,600 200 grafiese verwerkingseenhede (GPU's) vereis wat vir ten minste een jaar loop en ongeveer kos USD $100 miljoen. 'n 83,000 biljoen parametermodel sal 2 XNUMX GPU's benodig om dit vir 'n jaar aan te dryf, wat meer as USD $ XNUMX miljard kos.

Desondanks het tegnologiefirmas saamgewerk en beleggings in hul steeds groeiende supergrootte KI-modelle gedoen namate die vraag na ML-oplossings toeneem. Byvoorbeeld, China-gebaseerde Baidu en die Peng Cheng Lab het PCL-BAIDU Wenxin vrygestel, met 280 miljard parameters. PCL-BAIDU word reeds deur Baidu se nuusfeeds, soekenjin en digitale assistent gebruik.

Die nuutste Go-playing-programweergawe, wat DeepMind in Desember 2021 geskep het, het 280 miljard parameters. Die Google Switch-Transformer-GLaM-modelle het onderskeidelik 'n verbysterende 1 triljoen en 1.2 triljoen parameters. Wu Dao 2.0 van die Beijing Academy of KI is selfs meer massief en het na berig word dat dit 1.75 triljoen parameters het. Aangesien slim stede en outomatisering voortgaan om ontwrigtings te stoot, is kenners onseker hoe KI-berekening so 'n toekoms sal ondersteun.

Implikasies van supergrootte KI-modelle

Wyer implikasies van supergrootte KI-modelle kan die volgende insluit:

Verhoogde beleggings en geleenthede in die ontwikkeling van KI-rekenaarskyfies wat minder energie verbruik.
KI-vordering vertraag deur die gebrek aan rekenaarkrag, wat gelei het tot meer befondsing vir energiebesparende tegnologieë en oplossings.
ML-ontwikkelaars skep alternatiewe modelle afgesien van transformators, wat kan lei tot ontdekkings en innovasie vir meer doeltreffende algoritmes.
KI-oplossings wat fokus op toepassinggesentreerde probleme, die berekening dienooreenkomstig aanpas of wysig soos nodig in plaas van om net te vergroot.
Meer komplekse datastelle wat KI-programme toelaat om beter voorspellings uit te voer, insluitend weervoorspellings, ruimte-ontdekking, mediese diagnoses en internasionale handel.

Vrae om op kommentaar te lewer

As jy in die KI-sektor werk, wat is 'n paar vordering met die ontwikkeling van beter ML-modelle?
Wat is die ander potensiële voordele van modelle met uitgebreide opleidingsdata om van te leer?

Voeg by lys