Los modelos gigantes de IA superdimensionados están alcanzando un punto de inflexión

CREDITO DE IMAGEN:

iStock

Modelos de IA de gran tamaño: los sistemas informáticos gigantes están llegando al punto de inflexión

Los modelos matemáticos de aprendizaje automático son cada vez más grandes y sofisticados cada año, pero los expertos creen que estos algoritmos expansivos están a punto de alcanzar su punto máximo.

Escrito por:
Nombre del autor
Previsión Quantumrun
Sábado, Junio 2, 2023

Desde 2012, se han producido avances significativos en inteligencia artificial (IA) con regularidad, impulsados principalmente por el aumento de la potencia informática ("computación" para abreviar). Uno de los modelos más grandes, lanzado en 2020, utilizó 600,000 2012 veces más cómputo que el primer modelo de 2018. Los investigadores de OpenAI notaron esta tendencia en XNUMX y advirtieron que esta tasa de crecimiento no sería sostenible por mucho tiempo.

Contexto de modelos de IA de gran tamaño

Muchos desarrolladores de aprendizaje automático (ML) usan modelos transformadores para el aprendizaje profundo (DL) debido a su potencial aparentemente ilimitado. Ejemplos de estos modelos incluyen Transformador preentrenado generativo 2 (GPT-2), GPT-3, Representaciones de codificador bidireccional de transformadores (BERT) y Turing Natural Language Generation (NLG). Estos algoritmos suelen tener aplicaciones en el mundo real, como la traducción automática o la predicción de series temporales.

Los modos de inteligencia artificial tienen que expandirse para acomodar más datos de entrenamiento y mejorar en las predicciones. Este requisito ha llevado al surgimiento de modelos de gran tamaño con miles de millones de parámetros (variables utilizadas por los algoritmos para hacer predicciones). Estos modelos están representados por GPT-3 de OpenAI (y su interacción ChatGPT lanzada en diciembre de 2022), PanGu-alpha con sede en China, Megatron-Turing NLG de Nvidia y Gopher de DeepMind. En 2020, entrenar GPT-3 requería una supercomputadora que estuviera entre las cinco más grandes del mundo.

Sin embargo, estos modelos tienden a requerir cantidades masivas de datos de entrenamiento que consumen mucha energía. El aprendizaje profundo ha dependido de su capacidad para usar una enorme potencia informática, pero esto cambiará pronto. La capacitación es costosa, hay límites para los chips de IA y la capacitación de modelos grandes obstruye los procesadores, lo que dificulta administrarlos a todos. Cuanto mayor sea el parámetro, más costoso será entrenar estos modelos. Los expertos están de acuerdo en que llegará un punto en el que los modelos de IA de gran tamaño pueden volverse demasiado caros y consumir mucha energía para entrenar.

Impacto disruptivo

En 2020, OpenAI estimó la cantidad mínima de cómputo requerida para entrenar numerosos modelos, teniendo en cuenta la cantidad de parámetros y el tamaño del conjunto de datos. Estas ecuaciones explican cómo ML requiere que los datos pasen a través de la red muchas veces, cómo aumenta el cálculo de cada paso a medida que aumenta la cantidad de parámetros y cuántos datos se necesitan a medida que aumenta la cantidad de parámetros.

Según estimaciones de Open AI, suponiendo que los desarrolladores puedan lograr la máxima eficiencia, construir GPT-4 (100 veces más grande que GPT-3 (17.5 billones de parámetros)) requeriría 7,600 unidades de procesamiento de gráficos (GPU) en funcionamiento durante al menos un año y costaría aproximadamente 200 millones de dólares. Un modelo de 100 billones de parámetros necesitaría 83,000 2 GPU para alimentarlo durante un año, lo que costaría más de XNUMX millones de dólares.

No obstante, las empresas de tecnología han estado colaborando y realizando inversiones en sus modelos de IA de gran tamaño en constante expansión a medida que crece la demanda de soluciones de ML. Por ejemplo, Baidu con sede en China y Peng Cheng Lab lanzaron PCL-BAIDU Wenxin, con 280 mil millones de parámetros. PCL-BAIDU ya está siendo utilizado por las fuentes de noticias, el motor de búsqueda y el asistente digital de Baidu.

La última versión del programa Go-playing, que DeepMind creó en diciembre de 2021, tiene 280 mil millones de parámetros. Los modelos Google Switch-Transformer-GLaM tienen la asombrosa cifra de 1 billón y 1.2 billones de parámetros, respectivamente. Wu Dao 2.0 de la Academia de IA de Beijing es aún más masivo y se ha informado que tiene 1.75 billones de parámetros. A medida que las ciudades inteligentes y la automatización continúan impulsando las interrupciones, los expertos no están seguros de cómo la computación de IA respaldará ese futuro.

Implicaciones de los modelos de IA de gran tamaño

Las implicaciones más amplias de los modelos de IA de gran tamaño pueden incluir:

Mayores inversiones y oportunidades en el desarrollo de chips informáticos de IA que consuman menos energía.
El progreso de la IA se ralentizó por la falta de poder de cómputo, lo que llevó a más fondos para tecnologías y soluciones de conservación de energía.
Los desarrolladores de ML crean modelos alternativos además de los transformadores, lo que puede conducir a descubrimientos e innovación para algoritmos más eficientes.
Soluciones de IA que se centran en problemas centrados en la aplicación, ajustando la computación en consecuencia o modificando según sea necesario en lugar de simplemente sobredimensionar.
Conjuntos de datos más complejos que permiten que los programas de IA realicen mejores predicciones, incluidos pronósticos meteorológicos, descubrimiento espacial, diagnósticos médicos y comercio internacional.

Preguntas para comentar

Si trabaja en el sector de la IA, ¿cuáles son algunos avances en el desarrollo de mejores modelos de ML?
¿Cuáles son los otros beneficios potenciales de los modelos con extensos datos de entrenamiento para aprender?

Agregar a la lista