訓練人工智慧模型搜尋低成本人工智慧開發|量子運行

圖片來源：

iStock

訓練人工智慧模型：尋找低成本人工智慧開發

眾所周知，人工智慧模型的建構和訓練成本高昂，這使得大多數研究人員和使用者無法負擔。

作者：
作者姓名
量子運行遠見
2023 年 3 月 21 日

深度學習 (DL) 已被證明是應對人工智慧 (AI) 開發中若干挑戰的有效解決方案。然而，DL 也變得越來越昂貴。操作深度神經網路需要大量處理資源，特別是在預訓練中。更糟的是，這種能源密集過程意味著這些要求會產生大量碳足跡，損害人工智慧研究商業化的 ESG 評級。

訓練 AI 模型上下文

預訓練是目前建構大規模神經網路最受歡迎的方法，並且在電腦視覺（CV）和自然語言處理（NLP）領域取得了巨大成功。然而，開發巨大的深度學習模型成本太高。例如，訓練 OpenAI 的生成式預訓練 Transformer 3 (GPT-3) 擁有 175 億個參數，需要存取配備頂級顯示卡的龐大伺服器集群，估計成本為 12 萬美元。運行該模型還需要強大的伺服器和數百 GB 的視訊隨機存取記憶體 (VRAM)。

雖然大型科技公司可能有能力承擔此類培訓費用，但對於小型新創公司和研究組織來說，這卻變得令人望而卻步。三個因素推動了這項支出。

1. 龐大的運算成本，需要數週時間使用數千個圖形處理單元 (GPU)。

2. 微調模型需要大量存儲，通常佔用數百GB。此外，需要儲存不同任務的多個模型。

3. 訓練大型模型需要精確的運算能力和硬體；否則，結果可能不理想。

由於成本高昂，人工智慧研究變得越來越商業化，其中大型科技公司在該領域的研究中處於領先地位。這些公司也將從他們的研究結果中獲得最大利益。同時，研究機構和非營利組織如果想在該領域進行探索，通常必須與這些企業合作。

破壞性影響

有證據表明神經網路可以被「修剪」。這意味著在超大的神經網路中，較小的群體可以達到與原始人工智慧模型相同的精度水平，而不會對其功能產生重大影響。例如，2020 年，斯沃斯莫爾學院和洛斯阿拉莫斯國家實驗室的人工智慧研究人員表明，儘管複雜的深度學習模型可以學習預測數學家約翰康威的《生命遊戲》中的未來步驟，但總有一個較小的神經網路可以學習做同樣的事情。

研究人員發現，如果在完成整個訓練過程後丟棄 DL 模型的大量參數，他們可以將其縮小到原始大小的 10%，但仍能獲得相同的結果。幾家科技公司已經在壓縮他們的人工智慧模型，以節省筆記型電腦和智慧型手機等設備的空間。這種方法不僅省錢，而且可以讓軟體在沒有網路連線的情況下運作並即時獲得結果。

在某些情況下，借助小型神經網絡，深度學習也可以在太陽能電池或紐扣電池供電的設備上實現。然而，剪枝方法的一個限制是模型仍然需要完全訓練才能減少。有一些關於可以自行訓練的神經子集的初步研究。然而，它們的準確性與超大型神經網路不同。

訓練人工智慧模型的意義

訓練人工智慧模型的更廣泛影響可能包括：

增加訓練神經網路的不同方法的研究；然而，進展可能會因缺乏資金而放緩。
大型科技公司繼續為其人工智慧研究實驗室提供資金，導致更多的利益衝突。
人工智慧開發的成本為壟斷的形成創造了條件，限制了新的人工智慧新創公司與成熟科技公司獨立競爭的能力。在新興的業務場景中，少數大型科技公司可能會開發龐大的專有人工智慧模型，並將其作為服務/實用程式出租給較小的人工智慧公司。
研究機構、非營利組織和大學得到大型科技公司的資助，代表他們進行一些人工智慧實驗。這種趨勢可能導致更多人才從學術界流向企業。
大型科技公司發布並定期更新其人工智慧道德準則的壓力越來越大，以使他們對自己的研發專案負責。
隨著對更高運算能力的需求不斷增加，訓練人工智慧模型變得更加昂貴，從而導致更多的碳排放。
一些政府機構試圖規範這些巨型人工智慧模型訓練中使用的數據。此外，競爭機構可能會制定立法，迫使國內規模較小的企業能夠使用一定規模的人工智慧模型，以刺激中小企業創新。