Les systèmes informatiques géants de modèles ai surdimensionnés atteignent un point de basculement

CRÉDIT D'IMAGE:

iStock

Modèles d'IA surdimensionnés : les systèmes informatiques géants atteignent le point de basculement

Les modèles mathématiques d'apprentissage automatique deviennent plus grands et plus sophistiqués chaque année, mais les experts pensent que ces algorithmes expansifs sont sur le point d'atteindre leur apogée.

Auteur :
Nom de l'auteur
Prévision quantique
Le 2 juin 2023

Depuis 2012, des avancées significatives en matière d'intelligence artificielle (IA) se sont produites régulièrement, principalement portées par l'augmentation de la puissance de calcul ("compute" en abrégé). L'un des plus grands modèles, lancé en 2020, utilisait 600,000 2012 fois plus de calculs que le premier modèle de 2018. Les chercheurs d'OpenAI ont noté cette tendance en XNUMX et ont averti que ce taux de croissance ne serait pas durable longtemps.

Contexte des modèles d'IA surdimensionnés

De nombreux développeurs d'apprentissage automatique (ML) utilisent des modèles de transformateur pour l'apprentissage en profondeur (DL) en raison de leur potentiel apparemment illimité. Des exemples de ces modèles incluent Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) et Turing Natural Language Generation (NLG). Ces algorithmes ont souvent des applications dans le monde réel telles que la traduction automatique ou la prédiction de séries chronologiques.

Les modes d'intelligence artificielle doivent s'étendre pour accueillir plus de données d'entraînement et devenir meilleurs dans les prédictions. Cette exigence a conduit à l'essor de modèles surdimensionnés avec des milliards de paramètres (variables utilisées par les algorithmes pour faire des prédictions). Ces modèles sont représentés par le GPT-3 d'OpenAI (et son interaction ChatGPT lancée en décembre 2022), PanGu-alpha basé en Chine, Megatron-Turing NLG de Nvidia et Gopher de DeepMind. En 2020, la formation GPT-3 nécessitait un supercalculateur parmi les cinq plus gros au monde.

Cependant, ces modèles ont tendance à nécessiter des quantités massives de données d'entraînement énergivores. L'apprentissage en profondeur dépendait de sa capacité à utiliser une énorme puissance de calcul, mais cela va bientôt changer. La formation coûte cher, les puces IA ont des limites et la formation de grands modèles obstrue les processeurs, ce qui rend difficile leur gestion. Plus le paramètre est grand, plus il est coûteux d'entraîner ces modèles. Les experts s'accordent à dire qu'il arrivera un moment où les modèles d'IA surdimensionnés deviendront trop chers et énergivores pour être entraînés.

Impact perturbateur

En 2020, OpenAI a estimé la quantité minimale de calcul requise pour former de nombreux modèles, en tenant compte du nombre de paramètres et de la taille de l'ensemble de données. Ces équations expliquent comment ML exige que les données traversent le réseau plusieurs fois, comment le calcul pour chaque passage augmente à mesure que le nombre de paramètres augmente et combien de données sont nécessaires à mesure que le nombre de paramètres augmente.

Selon les estimations d'Open AI, en supposant que les développeurs puissent atteindre une efficacité maximale, la construction de GPT-4 (100 fois plus grand que GPT-3 (17.5 billions de paramètres)) nécessiterait 7,600 200 unités de traitement graphique (GPU) fonctionnant pendant au moins un an et coûterait environ 100 millions de dollars américains. Un modèle de 83,000 billions de paramètres nécessiterait 2 XNUMX GPU pour l'alimenter pendant un an, ce qui coûterait plus de XNUMX milliards de dollars.

Néanmoins, les entreprises technologiques collaborent et investissent dans leurs modèles d'IA surdimensionnés en constante expansion à mesure que la demande de solutions ML augmente. Par exemple, la société chinoise Baidu et le Peng Cheng Lab ont publié PCL-BAIDU Wenxin, avec 280 milliards de paramètres. PCL-BAIDU est déjà utilisé par les fils d'actualités, le moteur de recherche et l'assistant numérique de Baidu.

La dernière version du programme Go-playing, créée par DeepMind en décembre 2021, compte 280 milliards de paramètres. Les modèles Google Switch-Transformer-GLaM ont des paramètres stupéfiants de 1 billion et 1.2 billion, respectivement. Wu Dao 2.0 de l'Académie d'IA de Pékin est encore plus massif et aurait 1.75 billion de paramètres. Alors que les villes intelligentes et l'automatisation continuent de provoquer des perturbations, les experts ne savent pas comment le calcul de l'IA soutiendra un tel avenir.

Implications des modèles d'IA surdimensionnés

Les implications plus larges des modèles d'IA surdimensionnés peuvent inclure :

Investissements et opportunités accrus dans le développement de puces informatiques IA qui consomment moins d'énergie.
Les progrès de l'IA ont été ralentis par le manque de puissance de calcul, ce qui a conduit à davantage de financements pour les technologies et les solutions économes en énergie.
Les développeurs ML créent des modèles alternatifs en plus des transformateurs, ce qui peut conduire à des découvertes et à l'innovation pour des algorithmes plus efficaces.
Solutions d'IA axées sur les problèmes centrés sur les applications, ajustant le calcul en conséquence ou modifiant au besoin au lieu de simplement surdimensionner.
Des ensembles de données plus complexes permettant aux programmes d'IA d'effectuer de meilleures prévisions, y compris les prévisions météorologiques, la découverte de l'espace, les diagnostics médicaux et le commerce international.

Questions à commenter

Si vous travaillez dans le secteur de l'IA, quels sont les progrès accomplis dans le développement de meilleurs modèles de ML ?
Quels sont les autres avantages potentiels des modèles avec des données de formation étendues à partir desquelles tirer des enseignements ?

Ajouter à la liste