超大型 AI 模型:巨型计算系统正达到临界点

图片来源:
图片来源
iStock

超大型 AI 模型:巨型计算系统正达到临界点

超大型 AI 模型:巨型计算系统正达到临界点

副标题文字
机器学习数学模型每年都在变得越来越大、越来越复杂,但专家认为这些庞大的算法即将达到顶峰。
    • 作者:
    • 作者姓名
      量子运行远见
    • 2023 年 6 月 2 日

    自 2012 年以来,人工智能 (AI) 的重大进步经常发生,主要是由不断增长的计算能力(简称“计算”)推动的。 2020 年推出的最大模型之一使用的计算量是 600,000 年第一个模型的 2012 倍。OpenAI 的研究人员在 2018 年注意到了这一趋势,并警告说这种增长率不会持续太久。

    超大型 AI 模型上下文

    许多机器学习 (ML) 开发人员使用 Transformer 模型进行深度学习 (DL),因为它们看似潜力无穷。 这些模型的示例包括生成式预训练 Transformer 2 (GPT-2)、GPT-3、来自 Transformers 的双向编码器表示 (BERT) 和图灵自然语言生成 (NLG)。 这些算法通常具有现实世界的应用,例如机器翻译或时间序列预测。 

    人工智能模式必须扩展以容纳更多的训练数据并变得更擅长预测。 这一要求导致了具有数十亿参数(算法用于进行预测的变量)的超大型模型的兴起。 这些模型的代表是 OpenAI 的 GPT-3(及其于 2022 年 2020 月推出的 ChatGPT 交互)、中国的 PanGu-alpha、Nvidia 的 Megatron-Turing NLG 和 DeepMind 的 Gopher。 3 年,训练 GPT-XNUMX 需要一台世界前五的超级计算机。 

    然而,这些模型往往需要大量的能量密集型训练数据。 深度学习一直依赖于其使用巨大计算能力的能力,但这种情况很快就会改变。 训练很昂贵,人工智能芯片有限制,训练大型模型会堵塞处理器,很难管理它们。 参数越大,训练这些模型的成本就越高。 专家们一致认为,超大型 AI 模型可能会变得过于昂贵和耗能而无法训练。 

    破坏性影响

    2020 年,OpenAI 估计了训练大量模型所需的最小计算量,并考虑了参数数量和数据集大小。 这些方程说明了 ML 如何要求数据多次通过网络,每次通过的计算量如何随着参数数量的增加而增加,以及随着参数数量的增加需要多少数据。

    根据 Open AI 的估计,假设开发人员能够实现最大效率,构建 GPT-4(比 GPT-100 大 3 倍(17.5 万亿参数))将需要 7,600 个图形处理单元 (GPU) 运行至少一年,成本约为200亿美元。 一个 100 万亿参数的模型需要 83,000 个 GPU 才能运行一年,耗资超过 2 亿美元。

    尽管如此,随着对 ML 解决方案需求的增长,科技公司一直在合作并对其不断扩展的超大型 AI 模型进行大量投资。 例如,中国的百度和鹏程实验室发布了具有 280 亿个参数的 PCL-BAIDU Wenxin。 PCL-BAIDU 已经被百度的新闻提要、搜索引擎和数字助理使用。 

    DeepMind 于 2021 年 280 月创建的最新围棋程序版本具有 1 亿个参数。 Google Switch-Transformer-GLaM 模型分别拥有惊人的 1.2 万亿和 2.0 万亿个参数。 北京人工智能研究院的武道 1.75 更庞大,据报道有 XNUMX 万亿个参数。 随着智能城市和自动化继续推动颠覆,专家们不确定人工智能计算将如何支持这样的未来。 

    超大型人工智能模型的影响

    超大型 AI 模型的更广泛影响可能包括: 

    • 增加开发消耗更少能源的人工智能计算机芯片的投资和机会。 
    • 由于缺乏计算能力,人工智能的进展放缓,导致更多资金用于节能技术和解决方案。
    • ML 开发人员创建除转换器之外的替代模型,这可以导致发现和创新更高效的算法。
    • 人工智能解决方案专注于以应用程序为中心的问题,相应地调整计算或根据需要进行修改,而不仅仅是超大规模。
    • 更复杂的数据集允许 AI 程序执行更好的预测,包括天气预报、太空发现、医疗诊断和国际贸易。

    要评论的问题

    • 如果您在 AI 领域工作,在开发更好的 ML 模型方面取得了哪些进展?
    • 具有大量训练数据可供学习的模型还有哪些其他潜在好处?

    洞察参考

    此见解引用了以下流行和机构链接: