Tamaina handiko AI ereduak: informatika-sistema erraldoiak punta-puntura iristen ari dira

IRUDIAREN KREDITUA:
Irudiaren kreditu
iStock

Tamaina handiko AI ereduak: informatika-sistema erraldoiak punta-puntura iristen ari dira

Tamaina handiko AI ereduak: informatika-sistema erraldoiak punta-puntura iristen ari dira

Azpitituluaren testua
Ikaskuntza automatikoko eredu matematikoak gero eta handiagoak eta sofistikatuagoak dira urtero, baina adituek uste dute algoritmo hedagarri hauek gailurrera jotzear daudela.
    • Egilea:
    • Egilearen izena
      Quantumrun Prospektiba
    • June 2, 2023

    2012az geroztik, adimen artifizialean (AI) aurrerapen garrantzitsuak gertatu dira erregularki, batez ere konputazio-potentzia handitzeak bultzatuta ("konputatu" laburbilduz). Eredu handienetako batek, 2020an abian jarritakoak, 600,000ko lehen ereduak baino 2012 aldiz gehiago kalkulatu zuen. OpenAI-ko ikertzaileek joera hori nabaritu zuten 2018an eta ohartarazi zuten hazkunde-tasa hori ez zela iraunkorra izango luzaroan.

    AI tamaina handiko ereduen testuingurua

    Ikaskuntza automatikoko (ML) garatzaile askok ikaskuntza sakonerako (DL) eredu transformadoreak erabiltzen dituzte, itxuraz mugarik gabeko potentzialagatik. Eredu horien adibideak dira Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) eta Turing Natural Language Generation (NLG). Algoritmo hauek mundu errealeko aplikazioak izaten dituzte, hala nola itzulpen automatikoa edo denbora serieen iragarpena. 

    Adimen artifizialaren moduak hedatu egin behar dira prestakuntza-datu gehiago sartzeko eta iragarpenetan hobeak izateko. Baldintza honek milaka milioi parametro dituzten eredu handien igoera ekarri du (algoritmoek iragarpenak egiteko erabiltzen dituzten aldagaiak). Eredu hauek OpenAI-ren GPT-3 (eta bere ChatGPT interakzioa 2022ko abenduan abian jarri zen), Txinan oinarritutako PanGu-alpha, Nvidia-ren Megatron-Turing NLG eta DeepMind-en Gopher-ek adierazten dituzte. 2020an, GPT-3 prestakuntzak munduko bost handienen artean zegoen superordenagailu bat behar zuen. 

    Hala ere, eredu hauek energia-kontsumoko prestakuntza-datu kopuru handiak behar dituzte. Ikaskuntza sakona konputazio potentzia izugarria erabiltzeko duen gaitasunaren araberakoa izan da, baina hori laster aldatuko da. Prestakuntza garestia da, AI txipentzat mugak daude eta modelo handien prestakuntzak prozesadoreak trabatu egiten ditu, guztiak kudeatzea zailduz. Parametroa zenbat eta handiagoa izan, orduan eta garestiagoa da eredu horiek trebatzea. Adituek onartzen dute puntu bat iritsiko dela non tamaina handiko AI ereduak garestiegiak eta energia-kontsumo handikoak izan daitezkeela entrenatzeko. 

    Eragin disruptiboa

    2020an, OpenAI-k eredu ugari entrenatzeko behar den gutxieneko kalkulua kalkulatu zuen, parametro kopurua eta datu-multzoaren tamaina kontuan hartuta. Ekuazio hauek adierazten dute ML-k datu horiek sarean zehar hainbat aldiz igarotzea eskatzen duten, parametro kopurua handitzen den heinean pasabide bakoitzeko nola kalkulatzen den eta parametro kopurua hazten den heinean zenbat datu behar diren.

    Open AI-ren kalkuluen arabera, garatzaileek eraginkortasun maximoa lor dezaketela suposatuz, GPT-4 eraikitzeak (GPT-100 baino 3 aldiz handiagoa (17.5 bilioi parametro)) 7,600 grafiko prozesatzeko unitate (GPU) beharko lituzke gutxienez urtebetez exekutatzen eta kostatuko litzateke gutxi gorabehera. 200 milioi USD. 100 bilioi parametro-eredu batek 83,000 GPU beharko lituzke urtebetez elikatzeko, 2 milioi USD baino gehiago kostatzen.

    Hala eta guztiz ere, teknologia-enpresek lankidetzan aritu dira eta inbertsioak egiten ari dira gero eta hedatzen ari diren AI eredu handietan. Adibidez, Txinan oinarritutako Baidu eta Peng Cheng Lab-ek PCL-BAIDU Wenxin kaleratu zuten, 280 milioi parametrorekin. PCL-BAIDU Baiduren albiste-jarioak, bilatzaileak eta laguntzaile digitalak erabiltzen ari dira dagoeneko. 

    DeepMind-ek 2021eko abenduan sortu zuen Go-playing programaren azken bertsioak 280 milioi parametro ditu. Google Switch-Transformer-GLaM modeloek 1 bilioi eta 1.2 bilioi parametro izugarriak dituzte, hurrenez hurren. Beijingeko AI Akademiako Wu Dao 2.0 are masiboagoa da eta 1.75 bilioi parametro dituela jakinarazi da. Hiri adimentsuak eta automatizazioak etenaldiak bultzatzen jarraitzen dutenez, adituek ez dakite AI konputazioak nola lagunduko duen etorkizun hori. 

    Tamaina handiko AI ereduen inplikazioak

    Tamaina handiko AI ereduen ondorio zabalagoak izan daitezke: 

    • Inbertsioak eta aukerak areagotu dira energia gutxiago kontsumitzen duten AI ordenagailu txipak garatzeko. 
    • AIren aurrerapena moteldu egin da konputazio-potentzia faltagatik, eta energia aurrezteko teknologien eta soluzioen finantzaketa gehiago ekarri du.
    • ML garatzaileek transformadoreez gain eredu alternatiboak sortzen dituzte, eta horrek algoritmo eraginkorragoak lortzeko aurkikuntzak eta berrikuntzak ekar ditzake.
    • Aplikazioetan oinarritutako arazoetan zentratzen diren AI irtenbideak, konputazioa horren arabera egokituz edo behar den neurrian aldatuz gaindimentsionatu beharrean.
    • Datu multzo konplexuagoak AI programek iragarpen hobeak egiteko aukera ematen diete, besteak beste, eguraldiaren iragarpenak, espazioaren aurkikuntza, diagnostiko medikoak eta nazioarteko merkataritza.

    Iruzkintzeko galderak

    • AI sektorean lan egiten baduzu, zeintzuk dira aurrerapen batzuk ML eredu hobeak garatzeko?
    • Zeintzuk dira ikasteko prestakuntza-datu zabalak dituzten ereduen beste onura potentzialak?

    Insight erreferentziak

    Ikuspegi honetarako honako lotura ezagun eta instituzional hauei erreferentzia egin zaie: