Els sistemes informàtics gegants de models d'IA superdimensionats estan arribant al punt d'inflexió

CRÈDIT DE LA IMATGE:

iStock

Models d'IA de grans dimensions: els sistemes informàtics gegants estan arribant al punt d'inflexió

Els models matemàtics d'aprenentatge automàtic són cada cop més grans i sofisticats cada any, però els experts pensen que aquests algorismes expansius estan a punt d'arribar al màxim.

autor:
nom de l'autor
Previsió de Quantumrun
Juny 2, 2023

Des del 2012, s'han produït avenços significatius en intel·ligència artificial (IA) amb regularitat, impulsats principalment per l'augment de la potència de càlcul ("compute" per abreujar). Un dels models més grans, llançat el 2020, va utilitzar 600,000 vegades més càlcul que el primer model del 2012. Els investigadors d'OpenAI van observar aquesta tendència el 2018 i van advertir que aquesta taxa de creixement no seria sostenible durant molt de temps.

Context de models d'IA de grans dimensions

Molts desenvolupadors d'aprenentatge automàtic (ML) utilitzen models transformadors per a l'aprenentatge profund (DL) a causa del seu potencial aparentment il·limitat. Alguns exemples d'aquests models inclouen Generative Pre-Trained Transformer 2 (GPT-2), GPT-3, Bidireccional Encoder Representations from Transformers (BERT) i Turing Natural Language Generation (NLG). Aquests algorismes solen tenir aplicacions del món real com ara la traducció automàtica o la predicció de sèries temporals.

Els modes d'intel·ligència artificial s'han d'ampliar per acomodar més dades d'entrenament i millorar les prediccions. Aquest requisit ha provocat l'augment de models de grans dimensions amb milers de milions de paràmetres (variables utilitzades pels algorismes per fer prediccions). Aquests models estan representats pel GPT-3 d'OpenAI (i la seva interacció ChatGPT llançada el desembre de 2022), PanGu-alpha amb seu a la Xina, Megatron-Turing NLG de Nvidia i Gopher de DeepMind. El 2020, l'entrenament GPT-3 va requerir un superordinador que es trobava entre els cinc més grans del món.

Tanmateix, aquests models solen requerir quantitats massives de dades d'entrenament que consumeixen molta energia. L'aprenentatge profund ha depèn de la seva capacitat per utilitzar una enorme potència de càlcul, però això canviarà aviat. L'entrenament és car, hi ha límits als xips d'IA i l'entrenament de models grans obstrueix els processadors, cosa que dificulta la seva gestió. Com més gran és el paràmetre, més cost és entrenar aquests models. Els experts coincideixen que arribarà un punt en què els models d'IA de grans dimensions poden arribar a ser massa cars i consumir energia per entrenar.

Impacte disruptiu

El 2020, OpenAI va estimar la quantitat mínima de càlcul necessària per entrenar nombrosos models, tenint en compte el nombre de paràmetres i la mida del conjunt de dades. Aquestes equacions expliquen com ML requereix que les dades passin per la xarxa moltes vegades, com augmenta el càlcul de cada passada a mesura que augmenta el nombre de paràmetres i quantes dades es necessiten a mesura que creix el nombre de paràmetres.

Segons les estimacions d'Open AI, suposant que els desenvolupadors poden assolir la màxima eficiència, la construcció de GPT-4 (100 vegades més gran que GPT-3 (17.5 bilions de paràmetres)) requeriria 7,600 unitats de processament de gràfics (GPU) en funcionament durant almenys un any i costaria aproximadament. 200 milions de dòlars. Un model de 100 bilions de paràmetres necessitaria 83,000 GPU per alimentar-lo durant un any, amb un cost de més de 2 milions de dòlars.

No obstant això, les empreses tecnològiques han col·laborat i invertint en els seus models d'IA superdimensionats en constant expansió a mesura que creix la demanda de solucions de ML. Per exemple, Baidu, amb seu a la Xina, i el Peng Cheng Lab, van llançar PCL-BAIDU Wenxin, amb 280 milions de paràmetres. PCL-BAIDU ja l'utilitzen els canals de notícies, el motor de cerca i l'assistent digital de Baidu.

L'última versió del programa Go-playing, que DeepMind va crear el desembre de 2021, té 280 milions de paràmetres. Els models Google Switch-Transformer-GLaM tenen uns paràmetres sorprenents d'1 bilió i 1.2 bilions de paràmetres, respectivament. Wu Dao 2.0 de l'Acadèmia d'IA de Beijing és encara més massiu i s'ha informat que té 1.75 bilions de paràmetres. A mesura que les ciutats intel·ligents i l'automatització continuen impulsant les interrupcions, els experts no estan segurs de com la computació d'IA donarà suport a aquest futur.

Implicacions dels models d'IA de grans dimensions

Les implicacions més àmplies dels models d'IA de grans dimensions poden incloure:

Augment de les inversions i oportunitats en el desenvolupament de xips informàtics d'IA que consumeixen menys energia.
El progrés de la intel·ligència artificial s'ha frenat per la manca de potència informàtica, la qual cosa comporta més finançament per a tecnologies i solucions d'estalvi d'energia.
Desenvolupadors de ML que creen models alternatius a part dels transformadors, que poden conduir a descobriments i innovacions per a algorismes més eficients.
Solucions d'IA centrades en problemes centrats en l'aplicació, ajustant el càlcul en conseqüència o modificant-les segons sigui necessari en comptes de simplement sobredimensionar.
Conjunts de dades més complexos que permeten que els programes d'IA realitzin millors prediccions, incloses les previsions meteorològiques, el descobriment espacial, els diagnòstics mèdics i el comerç internacional.

Preguntes per comentar

Si treballeu al sector de la IA, quins avenços hi ha en el desenvolupament de millors models d'ML?
Quins són els altres beneficis potencials dels models amb dades d'entrenament àmplies per aprendre?

Afegeix a la llista