Os modelos de IA superdimensionados os sistemas informáticos xigantes están chegando ao punto de inflexión

CRÉDITO DA IMAXE:

iStock

Modelos de IA superdimensionados: os sistemas informáticos xigantes están chegando ao punto de inflexión

Os modelos matemáticos de aprendizaxe automática son cada vez máis grandes e sofisticados, pero os expertos cren que estes algoritmos expansivos están a piques de alcanzar o seu máximo.

autor:
nome do autor
Previsión de Quantumrun
Xuño 2, 2023

Desde 2012, producíronse con regularidade avances significativos na intelixencia artificial (IA), impulsados principalmente polo aumento da potencia de cálculo ("computar" para abreviar). Un dos modelos máis grandes, lanzado en 2020, utilizou 600,000 veces máis computación que o primeiro modelo de 2012. Os investigadores de OpenAI observaron esta tendencia en 2018 e advertiron de que esta taxa de crecemento non sería sostible por moito tempo.

Contexto de modelos de IA superdimensionados

Moitos desenvolvedores de aprendizaxe automática (ML) usan modelos transformadores para a aprendizaxe profunda (DL) debido ao seu potencial aparentemente ilimitado. Exemplos destes modelos inclúen Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) e Turing Natural Language Generation (NLG). Estes algoritmos adoitan ter aplicacións no mundo real, como tradución automática ou predición de series temporais.

Os modos de intelixencia artificial teñen que expandirse para acomodar máis datos de adestramento e mellorar as predicións. Esta esixencia levou ao aumento de modelos superdimensionados con miles de millóns de parámetros (variables que usan os algoritmos para facer predicións). Estes modelos están representados polo GPT-3 de OpenAI (e a súa interacción ChatGPT lanzado en decembro de 2022), PanGu-alpha con sede en China, Megatron-Turing NLG de Nvidia e Gopher de DeepMind. En 2020, o adestramento do GPT-3 requiriu unha supercomputadora que figuraba entre as cinco máis grandes do mundo.

Non obstante, estes modelos adoitan requirir cantidades masivas de datos de adestramento con uso intensivo de enerxía. A aprendizaxe profunda dependeu da súa capacidade de usar unha enorme potencia de cálculo, pero isto cambiará pronto. O adestramento é caro, hai límites para os chips de intelixencia artificial e o adestramento de modelos grandes atasca os procesadores, o que dificulta a súa xestión. Canto maior sexa o parámetro, máis custoso é adestrar estes modelos. Os expertos coinciden en que chegará un punto no que os modelos de IA superdimensionados poden ser demasiado caros e consumir enerxía para adestrar.

Impacto perturbador

En 2020, OpenAI estimou a cantidade mínima de cálculo necesaria para adestrar numerosos modelos, tendo en conta o número de parámetros e o tamaño do conxunto de datos. Estas ecuacións explican como ML require que eses datos pasen pola rede moitas veces, como aumenta o cálculo de cada paso a medida que aumenta o número de parámetros e cantos datos son necesarios a medida que crece o número de parámetros.

Segundo as estimacións de Open AI, asumindo que os desenvolvedores poidan acadar a máxima eficiencia, a construción de GPT-4 (100 veces maior que GPT-3 (17.5 billóns de parámetros)) requiriría 7,600 unidades de procesamento gráfico (GPU) en funcionamento durante polo menos un ano e custaría aproximadamente. USD $200 millóns. Un modelo de 100 billóns de parámetros necesitaría 83,000 GPU para alimentalo durante un ano, o que custaría máis de 2 millóns de dólares.

Non obstante, as empresas tecnolóxicas estiveron colaborando e investindo nos seus modelos de IA superdimensionados en constante expansión a medida que crece a demanda de solucións de ML. Por exemplo, Baidu, con sede en China, e Peng Cheng Lab lanzaron PCL-BAIDU Wenxin, con 280 millóns de parámetros. PCL-BAIDU xa está a ser usado polas fontes de noticias, o motor de busca e o asistente dixital de Baidu.

A última versión do programa Go-playing, que DeepMind creou en decembro de 2021, ten 280 millóns de parámetros. Os modelos Google Switch-Transformer-GLaM teñen 1 billón e 1.2 billóns de parámetros, respectivamente. Wu Dao 2.0 da Academia de IA de Pequín é aínda máis masivo e ten 1.75 billóns de parámetros. Mentres as cidades intelixentes e a automatización seguen provocando interrupcións, os expertos non están seguros de como a computación da intelixencia artificial soportará ese futuro.

Implicacións dos modelos de IA superdimensionados

As implicacións máis amplas dos modelos de IA superdimensionados poden incluír:

Aumento dos investimentos e oportunidades no desenvolvemento de chips informáticos de intelixencia artificial que consomen menos enerxía.
O progreso da IA ralentizouse pola falta de potencia informática, o que provocou máis financiamento para tecnoloxías e solucións de aforro enerxético.
Os desenvolvedores de ML crean modelos alternativos ademais dos transformadores, o que pode levar a descubrimentos e innovación para algoritmos máis eficientes.
Solucións de intelixencia artificial centradas en problemas centrados na aplicación, axustando o cálculo en consecuencia ou modificando segundo sexa necesario en lugar de simplemente superdimensionar.
Conxuntos de datos máis complexos que permiten que os programas de IA realicen mellores predicións, incluíndo previsións meteorolóxicas, descubrimento espacial, diagnósticos médicos e comercio internacional.

Preguntas para comentar

Se traballas no sector da IA, cales son os avances no desenvolvemento de mellores modelos de ML?
Cales son os outros beneficios potenciais dos modelos con amplos datos de adestramento dos que aprender?

Engadir á lista