超大型 AI 模型巨型計算系統正達到臨界點

圖片來源：

iStock

超大型 AI 模型：巨型計算系統正達到臨界點

機器學習數學模型每年都在變得越來越大、越來越複雜，但專家認為這些龐大的算法即將達到頂峰。

作者：
作者姓名
量子運行遠見
2023 年 6 月 2 日

自 2012 年以來，人工智能 (AI) 的重大進步經常發生，主要是由不斷增長的計算能力（簡稱“計算”）推動的。 2020 年推出的最大模型之一使用的計算量是 600,000 年第一個模型的 2012 倍。OpenAI 的研究人員在 2018 年註意到了這一趨勢，並警告說這種增長率不會持續太久。

超大型 AI 模型上下文

許多機器學習 (ML) 開發人員使用 Transformer 模型進行深度學習 (DL)，因為它們看似潛力無窮。這些模型的示例包括生成式預訓練 Transformer 2 (GPT-2)、GPT-3、來自 Transformers 的雙向編碼器表示 (BERT) 和圖靈自然語言生成 (NLG)。這些算法通常具有現實世界的應用，例如機器翻譯或時間序列預測。

人工智能模式必須擴展以容納更多的訓練數據並變得更擅長預測。這一要求導致了具有數十億參數（算法用於進行預測的變量）的超大型模型的興起。這些模型的代表是 OpenAI 的 GPT-3（及其於 2022 年 2020 月推出的 ChatGPT 交互）、中國的 PanGu-alpha、Nvidia 的 Megatron-Turing NLG 和 DeepMind 的 Gopher。 3 年，訓練 GPT-XNUMX 需要一台世界前五的超級計算機。

然而，這些模型往往需要大量的能量密集型訓練數據。深度學習一直依賴於其使用巨大計算能力的能力，但這種情況很快就會改變。訓練很昂貴，人工智能芯片有限制，訓練大型模型會堵塞處理器，很難管理它們。參數越大，訓練這些模型的成本就越高。專家們一致認為，超大型 AI 模型可能會變得過於昂貴和耗能而無法訓練。

破壞性影響

2020 年，OpenAI 估算了訓練大量模型所需的最小計算量，並考慮了參數數量和數據集大小。這些方程說明了 ML 如何要求數據多次通過網絡，每次通過的計算量如何隨著參數數量的增加而增加，以及隨著參數數量的增加需要多少數據。

根據 Open AI 的估計，假設開發人員能夠實現最大效率，構建 GPT-4（比 GPT-100 大 3 倍（17.5 萬億參數））將需要 7,600 個圖形處理單元 (GPU) 運行至少一年，成本約為200億美元。一個 100 萬億參數的模型需要 83,000 個 GPU 才能運行一年，耗資超過 2 億美元。

儘管如此，隨著對 ML 解決方案需求的增長，科技公司一直在合作並對其不斷擴展的超大型 AI 模型進行大量投資。例如，中國的百度和鵬程實驗室發布了具有 280 億個參數的 PCL-BAIDU Wenxin。 PCL-BAIDU 已被百度的新聞提要、搜索引擎和數字助理使用。

DeepMind 於 2021 年 280 月創建的最新圍棋程序版本具有 1 億個參數。 Google Switch-Transformer-GLaM 模型分別擁有驚人的 1.2 萬億和 2.0 萬億個參數。北京人工智能研究院的武道 1.75 更龐大，據報導有 XNUMX 萬億個參數。隨著智能城市和自動化繼續推動顛覆，專家們不確定人工智能計算將如何支持這樣的未來。