超大型 AI 模型:巨型計算系統正達到臨界點

圖片來源:
圖片來源
iStock

超大型 AI 模型:巨型計算系統正達到臨界點

超大型 AI 模型:巨型計算系統正達到臨界點

副標題文字
機器學習數學模型每年都在變得越來越大、越來越複雜,但專家認為這些龐大的算法即將達到頂峰。
    • 作者:
    • 作者姓名
      量子運行遠見
    • 2023 年 6 月 2 日

    自 2012 年以來,人工智能 (AI) 的重大進步經常發生,主要是由不斷增長的計算能力(簡稱“計算”)推動的。 2020 年推出的最大模型之一使用的計算量是 600,000 年第一個模型的 2012 倍。OpenAI 的研究人員在 2018 年註意到了這一趨勢,並警告說這種增長率不會持續太久。

    超大型 AI 模型上下文

    許多機器學習 (ML) 開發人員使用 Transformer 模型進行深度學習 (DL),因為它們看似潛力無窮。 這些模型的示例包括生成式預訓練 Transformer 2 (GPT-2)、GPT-3、來自 Transformers 的雙向編碼器表示 (BERT) 和圖靈自然語言生成 (NLG)。 這些算法通常具有現實世界的應用,例如機器翻譯或時間序列預測。 

    人工智能模式必須擴展以容納更多的訓練數據並變得更擅長預測。 這一要求導致了具有數十億參數(算法用於進行預測的變量)的超大型模型的興起。 這些模型的代表是 OpenAI 的 GPT-3(及其於 2022 年 2020 月推出的 ChatGPT 交互)、中國的 PanGu-alpha、Nvidia 的 Megatron-Turing NLG 和 DeepMind 的 Gopher。 3 年,訓練 GPT-XNUMX 需要一台世界前五的超級計算機。 

    然而,這些模型往往需要大量的能量密集型訓練數據。 深度學習一直依賴於其使用巨大計算能力的能力,但這種情況很快就會改變。 訓練很昂貴,人工智能芯片有限制,訓練大型模型會堵塞處理器,很難管理它們。 參數越大,訓練這些模型的成本就越高。 專家們一致認為,超大型 AI 模型可能會變得過於昂貴和耗能而無法訓練。 

    破壞性影響

    2020 年,OpenAI 估算了訓練大量模型所需的最小計算量,並考慮了參數數量和數據集大小。 這些方程說明了 ML 如何要求數據多次通過網絡,每次通過的計算量如何隨著參數數量的增加而增加,以及隨著參數數量的增加需要多少數據。

    根據 Open AI 的估計,假設開發人員能夠實現最大效率,構建 GPT-4(比 GPT-100 大 3 倍(17.5 萬億參數))將需要 7,600 個圖形處理單元 (GPU) 運行至少一年,成本約為200億美元。 一個 100 萬億參數的模型需要 83,000 個 GPU 才能運行一年,耗資超過 2 億美元。

    儘管如此,隨著對 ML 解決方案需求的增長,科技公司一直在合作並對其不斷擴展的超大型 AI 模型進行大量投資。 例如,中國的百度和鵬程實驗室發布了具有 280 億個參數的 PCL-BAIDU Wenxin。 PCL-BAIDU 已被百度的新聞提要、搜索引擎和數字助理使用。 

    DeepMind 於 2021 年 280 月創建的最新圍棋程序版本具有 1 億個參數。 Google Switch-Transformer-GLaM 模型分別擁有驚人的 1.2 萬億和 2.0 萬億個參數。 北京人工智能研究院的武道 1.75 更龐大,據報導有 XNUMX 萬億個參數。 隨著智能城市和自動化繼續推動顛覆,專家們不確定人工智能計算將如何支持這樣的未來。 

    超大型人工智能模型的影響

    超大型 AI 模型的更廣泛影響可能包括: 

    • 增加開發消耗更少能源的人工智能計算機芯片的投資和機會。 
    • 由於缺乏計算能力,人工智能的進展放緩,導致更多資金用於節能技術和解決方案。
    • ML 開發人員創建除轉換器之外的替代模型,這可以導致發現和創新更高效的算法。
    • 人工智能解決方案專注於以應用程序為中心的問題,相應地調整計算或根據需要進行修改,而不僅僅是超大規模。
    • 更複雜的數據集允許 AI 程序執行更好的預測,包括天氣預報、太空發現、醫療診斷和國際貿易。

    要評論的問題

    • 如果您在 AI 領域工作,在開發更好的 ML 模型方面取得了哪些進展?
    • 具有大量訓練數據可供學習的模型還有哪些其他潛在好處?

    洞察參考

    此見解引用了以下流行和機構鏈接: