Сверхразмерные модели ИИ: гигантские вычислительные системы достигают критической точки

ИЗОБРАЖЕНИЕ КРЕДИТ:
Кредит изображения
Istock

Сверхразмерные модели ИИ: гигантские вычислительные системы достигают критической точки

Сверхразмерные модели ИИ: гигантские вычислительные системы достигают критической точки

Текст подзаголовка
Математические модели машинного обучения с каждым годом становятся все больше и сложнее, но эксперты считают, что эти обширные алгоритмы вот-вот достигнут своего пика.
    • Автор:
    • Имя автора
      Квантумран Форсайт
    • 2 июня 2023

    С 2012 года регулярно происходили значительные успехи в области искусственного интеллекта (ИИ), в основном за счет увеличения вычислительной мощности (сокращенно «вычисления»). Одна из крупнейших моделей, запущенная в 2020 году, использовала в 600,000 2012 раз больше вычислительных ресурсов, чем первая модель 2018 года. Исследователи OpenAI отметили эту тенденцию в XNUMX году и предупредили, что такие темпы роста не будут устойчивыми в течение длительного времени.

    Контекст сверхразмерных моделей ИИ

    Многие разработчики машинного обучения (МО) используют модели-трансформеры для глубокого обучения (ГО) из-за их, казалось бы, безграничного потенциала. Примеры этих моделей включают генеративный предварительно обученный преобразователь 2 (GPT-2), GPT-3, представления двунаправленного кодировщика от преобразователей (BERT) и генерацию естественного языка Тьюринга (NLG). Эти алгоритмы часто используются в реальных приложениях, таких как машинный перевод или прогнозирование временных рядов. 

    Режимы искусственного интеллекта должны расширяться, чтобы вмещать больше обучающих данных и улучшать прогнозы. Это требование привело к появлению крупных моделей с миллиардами параметров (переменных, используемых алгоритмами для прогнозирования). Эти модели представлены GPT-3 от OpenAI (и его взаимодействие с ChatGPT, запущенное в декабре 2022 года), PanGu-alpha из Китая, Megatron-Turing NLG от Nvidia и Gopher от DeepMind. В 2020 году для обучения ГПТ-3 потребовался суперкомпьютер, входящий в пятерку крупнейших в мире. 

    Однако эти модели, как правило, требуют огромных объемов энергоемких обучающих данных. Глубокое обучение зависело от его способности использовать огромную вычислительную мощность, но это скоро изменится. Обучение стоит дорого, чипы ИИ ограничены, а обучение больших моделей забивает процессоры, что затрудняет управление ими всеми. Чем больше параметр, тем дороже обучение этих моделей. Эксперты сходятся во мнении, что наступит момент, когда слишком большие модели ИИ могут стать слишком дорогими и энергоемкими для обучения. 

    Разрушительное воздействие

    В 2020 году OpenAI оценил минимальный объем вычислений, необходимый для обучения множества моделей, с учетом количества параметров и размера набора данных. Эти уравнения объясняют, как ML требует, чтобы данные проходили через сеть много раз, как увеличивается количество вычислений для каждого прохода по мере увеличения количества параметров и сколько данных требуется при увеличении количества параметров.

    По оценкам Open AI, при условии, что разработчики смогут достичь максимальной эффективности, создание GPT-4 (в 100 раз больше, чем GPT-3 (17.5 триллионов параметров)) потребует 7,600 графических процессоров (GPU) в течение как минимум одного года и будет стоить примерно 200 миллионов долларов США. Модель со 100 триллионами параметров потребует 83,000 2 графических процессоров для работы в течение года, что обойдется более чем в XNUMX миллиарда долларов США.

    Тем не менее, технологические фирмы сотрудничают и вкладывают средства в свои постоянно расширяющиеся сверхмощные модели искусственного интеллекта по мере роста спроса на решения для машинного обучения. Например, китайская Baidu и Peng Cheng Lab выпустили PCL-BAIDU Wenxin с 280 миллиардами параметров. PCL-BAIDU уже используется новостными лентами Baidu, поисковой системой и цифровым помощником. 

    Последняя версия программы для игры в го, которую DeepMind создала в декабре 2021 года, имеет 280 миллиардов параметров. Модели Google Switch-Transformer-GLaM имеют ошеломляющие 1 триллион и 1.2 триллиона параметров соответственно. Wu Dao 2.0 от Пекинской академии ИИ еще более массивен и, как сообщается, имеет 1.75 триллиона параметров. Поскольку умные города и автоматизация продолжают подталкивать к сбоям, эксперты не уверены, как вычисления ИИ будут поддерживать такое будущее. 

    Последствия сверхразмерных моделей ИИ

    Более широкие последствия моделей искусственного интеллекта увеличенного размера могут включать: 

    • Увеличение инвестиций и возможностей в разработку компьютерных чипов с искусственным интеллектом, которые потребляют меньше энергии. 
    • Развитие ИИ замедлилось из-за нехватки вычислительной мощности, что привело к увеличению финансирования энергосберегающих технологий и решений.
    • Разработчики машинного обучения создают альтернативные модели помимо преобразователей, что может привести к открытиям и инновациям для более эффективных алгоритмов.
    • Решения ИИ, ориентированные на проблемы, ориентированные на приложения, соответствующим образом настраивая вычислительные ресурсы или модифицируя их по мере необходимости, а не просто увеличивая размер.
    • Более сложные наборы данных позволяют программам ИИ выполнять более точные прогнозы, включая прогнозы погоды, космические исследования, медицинские диагнозы и международную торговлю.

    Вопросы для комментариев

    • Если вы работаете в сфере искусственного интеллекта, каковы некоторые успехи в разработке лучших моделей машинного обучения?
    • Каковы другие потенциальные преимущества моделей с обширными обучающими данными, на которых можно учиться?

    Ссылки на статистику

    Для этого понимания использовались следующие популярные и институциональные ссылки: