超大型の AI モデル: 巨大なコンピューティング システムが転換点に達している

画像クレジット:
画像著作権
iStock

超大型の AI モデル: 巨大なコンピューティング システムが転換点に達している

超大型の AI モデル: 巨大なコンピューティング システムが転換点に達している

小見出しのテキスト
機械学習の数学的モデルは年々大きくなり、より洗練されていますが、専門家はこれらの拡張アルゴリズムがピークに達しようとしていると考えています。
    • 著者:
    • 著者名
      クォンタムラン・フォーサイト
    • 2023 年 6 月 2 日

    2012 年以来、主にコンピューティング能力 (略して「コンピューティング」) の向上によって、人工知能 (AI) の大幅な進歩が定期的に発生しています。 2020 年に発売された最大のモデルの 600,000 つは、2012 年の最初のモデルに比べて 2018 万倍のコンピューティングを利用しました。OpenAI の研究者は、XNUMX 年にこの傾向に注目し、この成長率は長くは持続できないと警告しました。

    超大型 AI モデルのコンテキスト

    多くの機械学習 (ML) 開発者は、無限の可能性を秘めているため、ディープ ラーニング (DL) にトランスフォーマー モデルを使用しています。 これらのモデルの例には、Generative Pre-trained Transformer 2 (GPT-2)、GPT-3、Bidirectional Encoder Representations from Transformers (BERT)、および Turing Natural Language Generation (NLG) が含まれます。 これらのアルゴリズムは、多くの場合、機械翻訳や時系列予測などの実世界のアプリケーションに使用されます。 

    人工知能のモードは、より多くのトレーニング データに対応し、より優れた予測を行うために拡張する必要があります。 この要件により、数十億のパラメーター (予測を行うためにアルゴリズムによって使用される変数) を備えた超大規模なモデルが登場しました。 これらのモデルは、OpenAI の GPT-3 (および 2022 年 2020 月に開始されたその ChatGPT インタラクション)、中国を拠点とする PanGu-alpha、Nvidia の Megatron-Turing NLG、DeepMind の Gopher によって代表されます。 3 年、GPT-XNUMX のトレーニングには、世界で XNUMX 番目に大きいスーパーコンピューターが必要でした。 

    ただし、これらのモデルは、エネルギーを大量に消費する大量のトレーニング データを必要とする傾向があります。 ディープラーニングは膨大な計算能力を利用する能力に依存してきましたが、これはすぐに変わります。 トレーニングには費用がかかり、AI チップには制限があり、大規模なモデルをトレーニングするとプロセッサが詰まり、すべてを管理することが困難になります。 パラメーターが大きいほど、これらのモデルのトレーニングにかかる​​コストが高くなります。 専門家らは、超大規模な AI モデルが高価になり、トレーニングするにはエネルギーを大量に消費するようになる時点が来るだろうということで同意しています。 

    破壊的な影響

    2020 年に、OpenAI は、パラメーターの数とデータセットのサイズを考慮して、多数のモデルをトレーニングするために必要な最小限のコンピューティング量を推定しました。 これらの方程式は、ML でデータがネットワークを何度も通過する必要があること、パラメーターの数が増加するにつれて各パスの計算がどのように増加するか、パラメーターの数が増加するにつれて必要なデータの量を説明します。

    Open AI の見積もりによると、開発者が最大限の効率を達成できると仮定すると、GPT-4 (GPT-100 (3 兆パラメータ) の 17.5 倍) を構築するには、7,600 個のグラフィックス プロセッシング ユニット (GPU) を少なくとも 200 年間実行する必要があり、コストはおよそ100億米ドル。 83,000 兆のパラメータ モデルを 2 年間駆動するには XNUMX 個の GPU が必要となり、コストは XNUMX 億米ドルを超えます。

    それにもかかわらず、ML ソリューションの需要が高まるにつれ、ハイテク企業は協力し、拡大し続ける超大規模 AI モデルに投資を注ぎ込んでいます。 たとえば、中国を拠点とする Baidu と Peng Cheng Lab は、280 億のパラメータを備えた PCL-BAIDU Wenxin をリリースしました。 PCL-BAIDU はすでに、Baidu のニュース フィード、検索エンジン、デジタル アシスタントで使用されています。 

    DeepMind が 2021 年 280 月に作成した最新の囲碁対局プログラム バージョンには、1 億のパラメータがあります。 Google Switch-Transformer-GLaM モデルには、それぞれ 1.2 兆個と 2.0 兆個という驚異的なパラメータがあります。 北京 AI アカデミーの Wu Dao 1.75 はさらに大規模で、XNUMX 兆 XNUMX 億のパラメータがあると報告されています。 スマートシティとオートメーションが破壊を推進し続ける中、専門家はAIコンピューティングがそのような未来をどのようにサポートするのか確信が持てません。 

    超大型 AI モデルの影響

    超大型 AI モデルの広範な影響には次のものが含まれる可能性があります。 

    • エネルギー消費の少ない AI コンピューター チップの開発への投資と機会が増加。 
    • コンピューティング能力の不足により AI の進歩が遅れ、省エネ技術やソリューションへの資金調達が増加しました。
    • ML 開発者は、トランスフォーマーとは別に代替モデルを作成します。これは、より効率的なアルゴリズムの発見と革新につながる可能性があります。
    • AI ソリューションは、アプリケーション中心の問題に焦点を当て、単にスーパーサイジングするのではなく、それに応じてコンピューティングを調整したり、必要に応じて変更したりします。
    • より複雑なデータセットにより、AI プログラムは天気予報、宇宙発見、医療診断、国際取引など、より適切な予測を実行できるようになります。

    コメントする質問

    • AI 分野で働いている場合、より優れた ML モデルの開発に関してどのような進歩がありますか?
    • 学習対象となる広範なトレーニング データを持つモデルのその他の潜在的な利点は何ですか?

    インサイトの参照

    この洞察のために、次の一般的な機関リンクが参照されました。