Modelos de IA superdimensionados, sistemas de computação gigantescos estão atingindo o ponto crítico

CRÉDITO DE IMAGEM:

iStock

Modelos de IA superdimensionados: sistemas de computação gigantes estão atingindo o ponto de inflexão

Os modelos matemáticos de aprendizado de máquina estão ficando maiores e mais sofisticados anualmente, mas os especialistas acham que esses algoritmos expansivos estão prestes a atingir o pico.

Autor:
Nome do autor
Previsão Quantumrun
2 de Junho de 2023

Desde 2012, têm ocorrido regularmente avanços significativos na inteligência artificial (IA), impulsionados principalmente pelo aumento do poder computacional (“computação”, abreviadamente). Um dos maiores modelos, lançado em 2020, utilizou 600,000 vezes mais computação do que o primeiro modelo de 2012. Os investigadores da OpenAI notaram esta tendência em 2018 e alertaram que esta taxa de crescimento não seria sustentável por muito tempo.

Contexto de modelos de IA superdimensionados

Muitos desenvolvedores de aprendizado de máquina (ML) usam modelos transformadores para aprendizado profundo (DL) devido ao seu potencial aparentemente ilimitado. Exemplos desses modelos incluem Transformador generativo pré-treinado 2 (GPT-2), GPT-3, Representações de codificador bidirecional de transformadores (BERT) e Turing Natural Language Generation (NLG). Esses algoritmos geralmente têm aplicações no mundo real, como tradução automática ou previsão de séries temporais.

Os modos de inteligência artificial precisam ser expandidos para acomodar mais dados de treinamento e melhorar as previsões. Esta exigência levou ao surgimento de modelos superdimensionados com bilhões de parâmetros (variáveis usadas por algoritmos para fazer previsões). Esses modelos são representados pelo GPT-3 da OpenAI (e sua interação ChatGPT lançada em dezembro de 2022), PanGu-alpha da China, Megatron-Turing NLG da Nvidia e Gopher da DeepMind. Em 2020, o treinamento do GPT-3 exigiu um supercomputador que estivesse entre os cinco maiores do mundo.

No entanto, esses modelos tendem a exigir grandes quantidades de dados de treinamento que consomem muita energia. A aprendizagem profunda depende da sua capacidade de utilizar um enorme poder computacional, mas isto irá mudar em breve. O treinamento é caro, há limites para chips de IA e o treinamento de modelos grandes obstrui os processadores, dificultando o gerenciamento de todos eles. Quanto maior o parâmetro, mais caro será treinar esses modelos. Os especialistas concordam que chegará um ponto em que modelos de IA superdimensionados poderão se tornar muito caros e consumir muita energia para serem treinados.

Impacto disruptivo

Em 2020, a OpenAI estimou a quantidade mínima de computação necessária para treinar vários modelos, levando em consideração o número de parâmetros e o tamanho do conjunto de dados. Essas equações explicam como o ML exige que os dados passem pela rede muitas vezes, como a computação para cada passagem aumenta à medida que o número de parâmetros aumenta e quantos dados são necessários à medida que o número de parâmetros aumenta.

De acordo com estimativas da Open AI, assumindo que os desenvolvedores possam alcançar eficiência máxima, construir o GPT-4 (100 vezes maior que o GPT-3 (17.5 trilhões de parâmetros)) exigiria 7,600 unidades de processamento gráfico (GPUs) funcionando por pelo menos um ano e custaria aproximadamente US$ 200 milhões. Um modelo de 100 trilhões de parâmetros precisaria de 83,000 GPUs para funcionar durante um ano, custando mais de US$ 2 bilhões.

No entanto, as empresas de tecnologia têm colaborado e investido em seus modelos de IA cada vez maiores, à medida que cresce a demanda por soluções de ML. Por exemplo, o Baidu, com sede na China, e o Peng Cheng Lab lançaram o PCL-BAIDU Wenxin, com 280 bilhões de parâmetros. O PCL-BAIDU já está sendo usado pelos feeds de notícias, mecanismo de busca e assistente digital do Baidu.

A versão mais recente do programa Go-playing, criada pela DeepMind em dezembro de 2021, tem 280 bilhões de parâmetros. Os modelos Google Switch-Transformer-GLaM têm impressionantes 1 trilhão e 1.2 trilhão de parâmetros, respectivamente. Wu Dao 2.0 da Academia de IA de Pequim é ainda mais massivo e tem 1.75 trilhão de parâmetros. À medida que as cidades inteligentes e a automação continuam a provocar disrupções, os especialistas não têm a certeza de como a computação da IA apoiará esse futuro.

Implicações de modelos de IA superdimensionados

Implicações mais amplas de modelos de IA superdimensionados podem incluir:

Aumento de investimentos e oportunidades no desenvolvimento de chips de computador de IA que consomem menos energia.
O progresso da IA foi abrandado pela falta de poder computacional, levando a mais financiamento para tecnologias e soluções de conservação de energia.
Desenvolvedores de ML criando modelos alternativos além dos transformadores, o que pode levar a descobertas e inovação para algoritmos mais eficientes.
Soluções de IA com foco em problemas centrados em aplicativos, ajustando a computação adequadamente ou modificando conforme necessário, em vez de apenas superdimensionar.
Conjuntos de dados mais complexos que permitem aos programas de IA realizar melhores previsões, incluindo previsões meteorológicas, descobertas espaciais, diagnósticos médicos e comércio internacional.

Perguntas para comentar

Se você trabalha no setor de IA, quais são os progressos no desenvolvimento de melhores modelos de ML?
Quais são os outros benefícios potenciais de modelos com extensos dados de treinamento para aprender?

Adicionado a lista