Supersized AI-modellen gigantyske kompjûtersystemen berikke kantelpunt

Ofbyldingskredyt:

iStock

Supersized AI-modellen: Giant computing-systemen berikke it kantelpunt

Wiskundige modellen foar masine-learen wurde jierliks grutter en ferfine, mar saakkundigen tinke dat dizze útwreide algoritmen op it punt steane te pikken.

Skriuwer:
Namme fan auteur
Quantumrun Foresight
June 2, 2023

Sûnt 2012 hawwe wichtige foarútgongen yn keunstmjittige yntelliginsje (AI) regelmjittich plakfûn, benammen oandreaun troch tanimmende kompjûterkrêft ("berekkenje" koartwei). Ien fan 'e grutste modellen, lansearre yn 2020, brûkte 600,000 kear mear berekkeningen dan it earste model fan 2012. Undersikers fan OpenAI notearren dizze trend yn 2018 en warskôgen dat dit groeitempo net lang duorsum wêze soe.

Supersized AI modellen kontekst

In protte ûntwikkelders fan masine learen (ML) brûke transformatormodellen foar djip learen (DL) fanwegen har skynber ûnbeheinde potensjeel. Foarbylden fan dizze modellen omfetsje Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT), en Turing Natural Language Generation (NLG). Dizze algoritmen hawwe faak echte applikaasjes lykas masine-oersetting of foarsizzing fan tiidsearjes.

Modi foar keunstmjittige yntelliginsje moatte útwreidzje om mear trainingsgegevens te foldwaan en better te wurden yn foarsizzingen. Dizze eask hat laat ta de opkomst fan supersized modellen mei miljarden parameters (fariabelen brûkt troch algoritmen om foarsizzingen te meitsjen). Dizze modellen wurde fertsjintwurdige troch OpenAI's GPT-3 (en har ChatGPT-ynteraksje lansearre yn desimber 2022), Sina-basearre PanGu-alpha, Nvidia's Megatron-Turing NLG, en DeepMind's Gopher. Yn 2020 easke training GPT-3 in superkompjûter dy't ûnder de fiif grutste yn 'e wrâld wie.

Dizze modellen hawwe lykwols de neiging om massive hoemannichten enerzjy-yntinsive trainingsgegevens te fereaskje. Djip learen is ôfhinklik fan syn fermogen om enoarme rekkenkrêft te brûken, mar dit sil gau feroarje. Trening is djoer, d'r binne grinzen foar AI-chips, en training fan grutte modellen ferstoppe processors, wêrtroch it lestich is om se allegear te behearjen. Hoe grutter de parameter, hoe djoerder it is om dizze modellen te trenen. Eksperts binne it iens dat d'r in punt sil komme wêr't supersized AI-modellen te djoer en enerzjy-yntinsyf wurde kinne om te trainen.

Disruptive ynfloed

Yn 2020 skatte OpenAI de minimale hoemannichte berekkening dy't nedich is om ferskate modellen te trainen, mei it oantal parameters en datasetgrutte yn rekken brocht. Dizze fergelikingen jouwe oan hoe't ML fereasket dat gegevens in protte kearen troch it netwurk passe, hoe't berekkenjen foar elke trochgong nimt ta as it oantal parameters ferheget, en hoefolle gegevens nedich binne as it oantal parameters groeit.

Neffens Open AI-skattingen, oannommen dat ûntwikkelders maksimale effisjinsje kinne berikke, soe it bouwen fan GPT-4 (100 kear grutter dan GPT-3 (17.5 triljoen parameters)) 7,600 grafyske ferwurkingsienheden (GPU's) nedich wêze dy't op syn minst ien jier rinne en sawat ien jier kostje. USD $200 miljoen. In 100-triljoen parametermodel soe 83,000 GPU's nedich wêze om it in jier te betsjinjen, en kostet mear dan $ 2 miljard.

Nettsjinsteande hawwe techbedriuwen gearwurke en ynvestearingen yn har hieltyd útwreidzjende supersized AI-modellen as de fraach nei ML-oplossingen groeit. Bygelyks, China-basearre Baidu en it Peng Cheng Lab hawwe PCL-BAIDU Wenxin frijlitten, mei 280 miljard parameters. PCL-BAIDU wurdt al brûkt troch Baidu's nijsfeeds, sykmasjine en digitale assistint.

De lêste ferzje fan it Go-playing-programma, dy't DeepMind makke yn desimber 2021, hat 280 miljard parameters. De Google Switch-Transformer-GLaM-modellen hawwe respektivelik 1 trillion en 1.2 trillion parameters. Wu Dao 2.0 fan 'e Beijing Academy of AI is noch massiver en is rapporteare om 1.75 trillion parameters te hawwen. Om't tûke stêden en automatisearring fersteuringen trochsette, binne saakkundigen net wis hoe't AI-berekkening sa'n takomst sil stypje.

Gefolgen fan supersized AI-modellen

Bredere gefolgen fan supersized AI-modellen kinne omfetsje:

Fergrutte ynvestearrings en kânsen yn it ûntwikkeljen fan AI-kompjûterchips dy't minder enerzjy ferbrûke.
AI-foarútgong fertrage troch it gebrek oan kompjûterkrêft, wat liedt ta mear finansiering foar enerzjybesparjende technologyen en oplossingen.
ML-ûntwikkelders meitsje alternative modellen útsein transformators, wat kinne liede ta ûntdekkingen en ynnovaasje foar effisjintere algoritmen.
AI-oplossings dy't rjochte binne op tapassing-sintraal problemen, it oanpassen fan berekkeningen of oanpasse as nedich ynstee fan gewoan supersize.
Mear komplekse datasets wêrtroch AI-programma's bettere foarsizzings kinne útfiere, ynklusyf waarberjochten, romteûntdekking, medyske diagnoazes en ynternasjonale hannel.

Fragen om reaksjes te jaan

As jo wurkje yn 'e AI-sektor, wat binne wat foarútgong by it ûntwikkeljen fan bettere ML-modellen?
Wat binne de oare potensjele foardielen fan modellen mei wiidweidige trainingsgegevens om fan te learen?

Add to list