Modelli di intelligenza artificiale superdimensionati, sistemi informatici giganti stanno raggiungendo il punto di svolta

CREDITO IMMAGINE:

iStock

Modelli di intelligenza artificiale sovradimensionati: i sistemi informatici giganti stanno raggiungendo il punto di svolta

I modelli matematici di apprendimento automatico diventano ogni anno più grandi e sofisticati, ma gli esperti ritengono che questi algoritmi espansivi stiano per raggiungere il picco.

Autore:
Nome dell'autore
Preveggenza quantistica
2 Giugno 2023

Dal 2012, si sono verificati regolarmente progressi significativi nell'intelligenza artificiale (AI), guidati principalmente dall'aumento della potenza di calcolo ("calcolo" in breve). Uno dei modelli più grandi, lanciato nel 2020, ha utilizzato 600,000 volte più calcolo rispetto al primo modello del 2012. I ricercatori di OpenAI hanno notato questa tendenza nel 2018 e hanno avvertito che questo tasso di crescita non sarebbe stato sostenibile a lungo.

Contesto dei modelli di intelligenza artificiale sovradimensionati

Molti sviluppatori di machine learning (ML) utilizzano modelli di trasformatori per il deep learning (DL) a causa del loro potenziale apparentemente illimitato. Esempi di questi modelli includono Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) e Turing Natural Language Generation (NLG). Questi algoritmi hanno spesso applicazioni nel mondo reale come la traduzione automatica o la previsione di serie temporali.

Le modalità di intelligenza artificiale devono espandersi per accogliere più dati di addestramento e migliorare le previsioni. Questo requisito ha portato alla nascita di modelli sovradimensionati con miliardi di parametri (variabili utilizzate dagli algoritmi per fare previsioni). Questi modelli sono rappresentati da GPT-3 di OpenAI (e dalla sua interazione ChatGPT lanciata nel dicembre 2022), PanGu-alpha con sede in Cina, Megatron-Turing NLG di Nvidia e Gopher di DeepMind. Nel 2020, l'addestramento di GPT-3 richiedeva un supercomputer tra i cinque più grandi al mondo.

Tuttavia, questi modelli tendono a richiedere enormi quantità di dati di addestramento ad alta intensità energetica. Il deep learning è dipeso dalla sua capacità di utilizzare un'enorme potenza di calcolo, ma questo cambierà presto. La formazione è costosa, ci sono limiti ai chip AI e la formazione di modelli di grandi dimensioni intasa i processori, rendendo difficile gestirli tutti. Più grande è il parametro, più costoso è addestrare questi modelli. Gli esperti concordano sul fatto che arriverà un punto in cui i modelli di intelligenza artificiale sovradimensionati potrebbero diventare troppo costosi e ad alta intensità energetica per l'addestramento.

Impatto dirompente

Nel 2020, OpenAI ha stimato la quantità minima di calcolo necessaria per addestrare numerosi modelli, tenendo conto del numero di parametri e delle dimensioni del set di dati. Queste equazioni spiegano come ML richiede che i dati passino attraverso la rete molte volte, come il calcolo per ogni passaggio aumenta all'aumentare del numero di parametri e quanti dati sono necessari all'aumentare del numero di parametri.

Secondo le stime di Open AI, supponendo che gli sviluppatori possano raggiungere la massima efficienza, la creazione di GPT-4 (100 volte più grande di GPT-3 (17.5 trilioni di parametri)) richiederebbe 7,600 unità di elaborazione grafica (GPU) in esecuzione per almeno un anno e un costo di circa USD $ 200 milioni. Un modello da 100 trilioni di parametri richiederebbe 83,000 GPU per alimentarlo per un anno, con un costo di oltre 2 miliardi di dollari.

Tuttavia, le aziende tecnologiche hanno collaborato e investito nei loro modelli di intelligenza artificiale sovradimensionati in continua espansione man mano che cresce la domanda di soluzioni ML. Ad esempio, la cinese Baidu e il Peng Cheng Lab hanno rilasciato PCL-BAIDU Wenxin, con 280 miliardi di parametri. PCL-BAIDU è già utilizzato dai feed di notizie, dal motore di ricerca e dall'assistente digitale di Baidu.

L'ultima versione del programma Go-playing, creata da DeepMind nel dicembre 2021, ha 280 miliardi di parametri. I modelli Google Switch-Transformer-GLaM hanno rispettivamente l'incredibile cifra di 1 trilione e 1.2 trilioni di parametri. Wu Dao 2.0 dell'Accademia di intelligenza artificiale di Pechino è ancora più massiccio ed è stato segnalato per avere 1.75 trilioni di parametri. Poiché le città intelligenti e l'automazione continuano a portare interruzioni, gli esperti non sono sicuri di come il calcolo dell'IA supporterà un simile futuro.

Implicazioni di modelli di intelligenza artificiale sovradimensionati

Le implicazioni più ampie dei modelli di intelligenza artificiale sovradimensionati possono includere:

Maggiori investimenti e opportunità nello sviluppo di chip per computer AI che consumano meno energia.
Il progresso dell'intelligenza artificiale è rallentato dalla mancanza di potenza di calcolo, portando a maggiori finanziamenti per tecnologie e soluzioni di risparmio energetico.
Sviluppatori ML che creano modelli alternativi oltre ai trasformatori, che possono portare a scoperte e innovazione per algoritmi più efficienti.
Soluzioni AI incentrate su problemi incentrati sulle applicazioni, regolando il calcolo di conseguenza o modificando secondo necessità invece di limitarsi a sovradimensionare.
Set di dati più complessi che consentono ai programmi di intelligenza artificiale di eseguire previsioni migliori, tra cui previsioni meteorologiche, scoperte spaziali, diagnosi mediche e commercio internazionale.

Domande da commentare

Se lavori nel settore dell'intelligenza artificiale, quali sono i progressi nello sviluppo di modelli ML migliori?
Quali sono gli altri potenziali vantaggi dei modelli con dati di addestramento estesi da cui apprendere?

Aggiungi alla lista