초대형 AI 모델 거대 컴퓨팅 시스템이 전환점에 도달하고 있습니다

이미지 크레딧:

iStock

초대형 AI 모델: 거대한 컴퓨팅 시스템이 티핑 포인트에 도달하고 있습니다.

기계 학습 수학적 모델은 매년 더 커지고 정교해지고 있지만 전문가들은 이러한 광범위한 알고리즘이 절정에 달할 것이라고 생각합니다.

저자:
저자 이름
퀀텀런 예측
２０２３년 ６월 ２８일

2012년 이후 인공 지능(AI)의 상당한 발전은 주로 컴퓨팅 성능(줄여서 "컴퓨팅")의 증가에 힘입어 정기적으로 이루어졌습니다. 2020년에 출시된 가장 큰 모델 중 하나는 600,000년 첫 번째 모델보다 2012배 더 많은 컴퓨팅을 활용했습니다. OpenAI 연구원들은 2018년에 이러한 추세를 주목하고 이러한 성장률이 오랫동안 지속되지 않을 것이라고 경고했습니다.

초대형 AI 모델 컨텍스트

많은 기계 학습(ML) 개발자는 겉보기에 무한해 보이는 잠재력 때문에 딥 러닝(DL)에 변환기 모델을 사용합니다. 이러한 모델의 예로는 GPT-2(Generative Pre-trained Transformer 2), GPT-3, BERT(BiDirectional Encoder Representations from Transformers) 및 NLG(Turing Natural Language Generation)가 있습니다. 이러한 알고리즘에는 기계 번역이나 시계열 예측과 같은 실제 응용 프로그램이 있는 경우가 많습니다.

인공 지능 모드는 더 많은 훈련 데이터를 수용하고 예측 능력을 향상시키기 위해 확장되어야 합니다. 이러한 요구 사항으로 인해 수십억 개의 매개변수(예측을 위해 알고리즘이 사용하는 변수)가 포함된 초대형 모델이 등장하게 되었습니다. 이러한 모델은 OpenAI의 GPT-3(및 2022년 2020월에 출시된 ChatGPT 상호 작용), 중국 기반 PanGu-alpha, Nvidia의 Megatron-Turing NLG 및 DeepMind의 Gopher로 대표됩니다. 3년에는 GPT-XNUMX을 훈련하려면 세계 XNUMX대 슈퍼컴퓨터가 필요했습니다.

그러나 이러한 모델에는 엄청난 양의 에너지 집약적인 훈련 데이터가 필요한 경향이 있습니다. 딥 러닝은 엄청난 컴퓨팅 성능을 활용하는 능력에 의존해 왔지만 이는 곧 바뀔 것입니다. 훈련에는 비용이 많이 들고, AI 칩에는 한계가 있으며, 대형 모델을 훈련하면 프로세서가 막혀 모두 관리하기가 어렵습니다. 매개변수가 클수록 이러한 모델을 학습하는 데 비용이 더 많이 듭니다. 전문가들은 초대형 AI 모델이 훈련하기에 너무 비싸고 에너지 집약적일 수 있는 시점이 올 것이라는 데 동의합니다.

파괴적 영향

2020년에 OpenAI는 매개변수 수와 데이터 세트 크기를 고려하여 수많은 모델을 훈련하는 데 필요한 최소 컴퓨팅 양을 추정했습니다. 이러한 방정식은 ML이 해당 데이터가 네트워크를 여러 번 통과하도록 요구하는 방식, 매개변수 수가 증가함에 따라 각 패스에 대한 컴퓨팅이 증가하는 방식, 매개변수 수가 증가함에 따라 필요한 데이터 양을 설명합니다.

Open AI 추정에 따르면 개발자가 최대 효율성을 달성할 수 있다고 가정할 때 GPT-4(GPT-100(3조 17.5천억 매개변수)보다 7,600배 더 큼)를 구축하려면 최소 200년 동안 실행되는 100개의 그래픽 처리 장치(GPU)가 필요하며 대략적인 비용이 소요됩니다. 83,000억 달러. 2조 개의 매개변수 모델을 XNUMX년 동안 구동하려면 XNUMX개의 GPU가 필요하며 비용은 미화 XNUMX억 달러 이상입니다.

그럼에도 불구하고, 기술 기업들은 ML 솔루션에 대한 수요가 증가함에 따라 끊임없이 확장되는 초대형 AI 모델에 협력하고 투자를 쏟아 왔습니다. 예를 들어, 중국에 본사를 둔 Baidu와 Peng Cheng Lab은 280억 개의 매개변수를 갖춘 PCL-BAIDU Wenxin을 출시했습니다. PCL-BAIDU는 이미 Baidu의 뉴스 피드, 검색 엔진 및 디지털 보조 장치에서 사용되고 있습니다.

DeepMind가 2021년 280월에 만든 최신 바둑 프로그램 버전에는 1억 개의 매개변수가 있습니다. Google Switch-Transformer-GLaM 모델에는 각각 1.2조 개와 2.0조 1.75천억 개의 매개변수가 있습니다. 베이징 AI 아카데미(Beijing Academy of AI)의 Wu Dao XNUMX은 훨씬 더 방대하며 XNUMX조 XNUMX억 개의 매개변수를 가지고 있는 것으로 보고되었습니다. 스마트 시티와 자동화가 계속해서 혼란을 야기함에 따라 전문가들은 AI 컴퓨팅이 그러한 미래를 어떻게 지원할지 확신하지 못합니다.

초대형 AI 모델의 시사점

초대형 AI 모델의 더 넓은 의미는 다음과 같습니다.

에너지를 덜 소비하는 AI 컴퓨터 칩 개발에 대한 투자와 기회가 증가합니다.
컴퓨팅 능력 부족으로 인해 AI 발전이 둔화되면서 에너지 절약 기술과 솔루션에 더 많은 자금이 투입되었습니다.
ML 개발자는 변환기 외에 대체 모델을 생성하여 보다 효율적인 알고리즘을 발견하고 혁신할 수 있습니다.
애플리케이션 중심 문제에 초점을 맞춘 AI 솔루션으로, 단순히 초대형화하는 대신 그에 따라 컴퓨팅을 조정하거나 필요에 따라 수정합니다.
AI 프로그램이 일기 예보, 우주 발견, 의료 진단 및 국제 무역을 포함하여 더 나은 예측을 수행할 수 있도록 하는 더 복잡한 데이터 세트입니다.