超大型 AI 模型巨型计算系统正达到临界点

图片来源：

iStock

超大型 AI 模型：巨型计算系统正达到临界点

机器学习数学模型每年都在变得越来越大、越来越复杂，但专家认为这些庞大的算法即将达到顶峰。

作者：
作者姓名
量子运行远见
2023 年 6 月 2 日

自 2012 年以来，人工智能 (AI) 的重大进步经常发生，主要是由不断增长的计算能力（简称“计算”）推动的。 2020 年推出的最大模型之一使用的计算量是 600,000 年第一个模型的 2012 倍。OpenAI 的研究人员在 2018 年注意到了这一趋势，并警告说这种增长率不会持续太久。

超大型 AI 模型上下文

许多机器学习 (ML) 开发人员使用 Transformer 模型进行深度学习 (DL)，因为它们看似潜力无穷。这些模型的示例包括生成式预训练 Transformer 2 (GPT-2)、GPT-3、来自 Transformers 的双向编码器表示 (BERT) 和图灵自然语言生成 (NLG)。这些算法通常具有现实世界的应用，例如机器翻译或时间序列预测。

人工智能模式必须扩展以容纳更多的训练数据并变得更擅长预测。这一要求导致了具有数十亿参数（算法用于进行预测的变量）的超大型模型的兴起。这些模型的代表是 OpenAI 的 GPT-3（及其于 2022 年 2020 月推出的 ChatGPT 交互）、中国的 PanGu-alpha、Nvidia 的 Megatron-Turing NLG 和 DeepMind 的 Gopher。 3 年，训练 GPT-XNUMX 需要一台世界前五的超级计算机。

然而，这些模型往往需要大量的能量密集型训练数据。深度学习一直依赖于其使用巨大计算能力的能力，但这种情况很快就会改变。训练很昂贵，人工智能芯片有限制，训练大型模型会堵塞处理器，很难管理它们。参数越大，训练这些模型的成本就越高。专家们一致认为，超大型 AI 模型可能会变得过于昂贵和耗能而无法训练。

破坏性影响

2020 年，OpenAI 估计了训练大量模型所需的最小计算量，并考虑了参数数量和数据集大小。这些方程说明了 ML 如何要求数据多次通过网络，每次通过的计算量如何随着参数数量的增加而增加，以及随着参数数量的增加需要多少数据。

根据 Open AI 的估计，假设开发人员能够实现最大效率，构建 GPT-4（比 GPT-100 大 3 倍（17.5 万亿参数））将需要 7,600 个图形处理单元 (GPU) 运行至少一年，成本约为200亿美元。一个 100 万亿参数的模型需要 83,000 个 GPU 才能运行一年，耗资超过 2 亿美元。

尽管如此，随着对 ML 解决方案需求的增长，科技公司一直在合作并对其不断扩展的超大型 AI 模型进行大量投资。例如，中国的百度和鹏程实验室发布了具有 280 亿个参数的 PCL-BAIDU Wenxin。 PCL-BAIDU 已经被百度的新闻提要、搜索引擎和数字助理使用。

DeepMind 于 2021 年 280 月创建的最新围棋程序版本具有 1 亿个参数。 Google Switch-Transformer-GLaM 模型分别拥有惊人的 1.2 万亿和 2.0 万亿个参数。北京人工智能研究院的武道 1.75 更庞大，据报道有 XNUMX 万亿个参数。随着智能城市和自动化继续推动颠覆，专家们不确定人工智能计算将如何支持这样的未来。