Supersized ai modeloj gigantaj komputilaj sistemoj atingas renverspunkton

BILDA KREDITO:

iStock

Supergrandaj AI-modeloj: Gigantaj komputikaj sistemoj atingas la renversan punkton

Maŝinlernado de matematikaj modeloj iĝas pli grandaj kaj pli kompleksaj ĉiujare, sed spertuloj opinias, ke ĉi tiuj ampleksaj algoritmoj estas pintontaj.

Aŭtoro:
Aŭtora nomo
Quantumrun Foresight
Junio 2, 2023

Ekde 2012, signifaj progresoj en artefarita inteligenteco (AI) okazis regule, plejparte pelitaj de kreskanta komputa potenco ("komputi" mallonge). Unu el la plej grandaj modeloj, lanĉita en 2020, utiligis 600,000 2012 fojojn pli da komputado ol la unua modelo de 2018. Esploristoj ĉe OpenAI rimarkis ĉi tiun tendencon en XNUMX kaj avertis, ke ĉi tiu kreskorapideco ne estus daŭrigebla longe.

Supergrandigitaj AI modeligas kuntekston

Multaj programistoj de maŝinlernado (ML) uzas transformilmodelojn por profunda lernado (DL) pro sia ŝajne senlima potencialo. Ekzemploj de tiuj modeloj inkludas Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations de Transformiloj (BERT), kaj Turing Natural Language Generation (NLG). Tiuj algoritmoj ofte havas real-mondajn aplikojn kiel ekzemple maŝintradukado aŭ temposerioprognozo.

Reĝimoj de artefarita inteligenteco devas disetendiĝi por alĝustigi pli da trejnaj datumoj kaj pliboniĝi pri antaŭdiroj. Tiu postulo kaŭzis la pliiĝon de supergrandaj modeloj kun miliardoj da parametroj (variabloj uzitaj per algoritmoj por fari prognozojn). Tiuj modeloj estas reprezentitaj per GPT-3 de OpenAI (kaj ĝia ChatGPT-interagado lanĉita en decembro 2022), Ĉin-bazita PanGu-alfa, Megatron-Turing NLG de Nvidia, kaj Gopher de DeepMind. En 2020, trejnado de GPT-3 postulis superkomputilon kiu estis inter la kvin plej grandaj en la mondo.

Tamen, ĉi tiuj modeloj emas postuli amasajn kvantojn de energiintensaj trejnaj datumoj. Profunda lernado dependis de sia kapablo uzi enorman komputikan potencon, sed ĉi tio baldaŭ ŝanĝiĝos. Trejnado estas multekosta, estas limoj al AI-blatoj, kaj trejnado de grandaj modeloj ŝtopas procesorojn, malfaciligante ilin administri ĉiujn. Ju pli granda estas la parametro, des pli multe kostas trejni ĉi tiujn modelojn. Fakuloj konsentas, ke venos punkto, kie supergrandaj AI-modeloj povas iĝi tro multekostaj kaj energiintensaj por trejni.

Disrompa efiko

En 2020, OpenAI taksis la minimuman kvanton de komputado necesa por trejni multajn modelojn, enkalkulante la nombron da parametroj kaj datumargrandecon. Tiuj ekvacioj respondecas pri kiel ML postulas ke tiuj datenoj pasu tra la reto multajn fojojn, kiel komputi por ĉiu enirpermesilo pliiĝas kiam la nombro da parametroj pliiĝas, kaj kiom multe da datenoj estas necesaj kiam la nombro da parametroj kreskas.

Laŭ taksoj de Open AI, supozante, ke programistoj povas atingi maksimuman efikecon, konstrui GPT-4 (100 fojojn pli granda ol GPT-3 (17.5 duilionoj da parametroj)) postulus 7,600 200 grafikajn prilaborajn unuojn (GPUoj) funkciantan dum almenaŭ unu jaro kaj kostos proksimume. USD $100 milionoj. 83,000-triliona parametromodelo bezonus 2 GPU-ojn por funkciigi ĝin dum jaro, kostante pli ol USD $ XNUMX miliardojn.

Tamen, teknologiaj firmaoj kunlaboris kaj verŝis investojn en siaj ĉiam pligrandiĝantaj supergrandaj AI-modeloj dum la postulo je ML-solvoj kreskas. Ekzemple, Ĉinio-bazita Baidu kaj la Peng Cheng Lab publikigis PCL-BAIDU Wenxin, kun 280 miliardoj da parametroj. PCL-BAIDU jam estas uzata de la novaĵoj, serĉilo kaj cifereca asistanto de Baidu.

La plej nova Go-playing programversio, kiun DeepMind kreis en decembro 2021, havas 280 miliardojn da parametroj. La Google Switch-Transformer-GLaM-modeloj havas mirindajn 1 duilionojn kaj 1.2 duilionojn da parametroj, respektive. Wu Dao 2.0 de la Pekina Akademio de AI estas eĉ pli masiva kaj laŭdire havas 1.75 miliardojn da parametroj. Ĉar inteligentaj urboj kaj aŭtomatigo daŭre puŝas interrompojn, spertuloj ne certas kiel AI-komputado subtenos tian estontecon.

Implikoj de supergrandaj AI-modeloj

Pli larĝaj implicoj de supergrandaj AI-modeloj povas inkludi:

Pliigitaj investoj kaj ŝancoj en evoluigado de AI komputilaj blatoj kiuj konsumas malpli da energio.
AI-progreso bremsita pro la manko de komputika potenco, kondukante al pli da financado por energio-konservaj teknologioj kaj solvoj.
ML-programistoj kreantaj alternativajn modelojn krom transformiloj, kiuj povas konduki al malkovroj kaj novigado por pli efikaj algoritmoj.
AI-solvoj fokusantaj al aplikaĵ-centraj problemoj, ĝustigante komputadon laŭbezone aŭ modifante laŭbezone anstataŭ nur supergrandigi.
Pli kompleksaj datumaroj permesante al programoj de AI plenumi pli bonajn prognozojn, inkluzive de veterprognozoj, spacmalkovro, medicinaj diagnozoj kaj internacia komerco.

Demandoj por komenti

Se vi laboras en la AI-sektoro, kio estas iu progreso en la disvolviĝo de pli bonaj ML-modeloj?
Kio estas la aliaj eblaj avantaĝoj de modeloj kun ampleksaj trejnaj datumoj por lerni de?

Aldoni al listo