Надрозмірні моделі ШІ: гігантські обчислювальні системи досягають переломного моменту

КРЕДИТ ЗОБРАЖЕННЯ:
Кредит зображення
iStock

Надрозмірні моделі ШІ: гігантські обчислювальні системи досягають переломного моменту

Надрозмірні моделі ШІ: гігантські обчислювальні системи досягають переломного моменту

Текст підзаголовка
Математичні моделі машинного навчання щороку стають все більшими та складнішими, але експерти вважають, що ці експансивні алгоритми ось-ось досягнуть піку.
    • Автор:
    • ім'я автора
      Quantumrun Foresight
    • 2 Червня, 2023.

    Починаючи з 2012 року, у штучному інтелекті (ШІ) регулярно відбувався значний прогрес, головним чином завдяки збільшенню обчислювальної потужності (скорочено «обчислювати»). Одна з найбільших моделей, запущена в 2020 році, використовувала в 600,000 2012 разів більше обчислень, ніж перша модель 2018 року. Дослідники з OpenAI помітили цю тенденцію в XNUMX році і попередили, що такі темпи зростання не будуть стійкими довго.

    Контекст суперрозмірних моделей ШІ

    Багато розробників машинного навчання (ML) використовують моделі трансформаторів для глибокого навчання (DL) через їх, здавалося б, безмежний потенціал. Приклади цих моделей включають Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) і Turing Natural Language Generation (NLG). Ці алгоритми часто мають реальні застосування, такі як машинний переклад або прогнозування часових рядів. 

    Режими штучного інтелекту мають розширюватися, щоб отримувати більше навчальних даних і ставати кращими в прогнозах. Ця вимога призвела до появи надрозмірних моделей із мільярдами параметрів (змінних, які використовуються алгоритмами для прогнозування). Ці моделі представлені GPT-3 від OpenAI (і його взаємодія ChatGPT, запущена в грудні 2022 року), китайська PanGu-alpha, Megatron-Turing NLG від Nvidia та Gopher від DeepMind. У 2020 році для навчання GPT-3 був потрібен суперкомп’ютер, який входив до п’ятірки найбільших у світі. 

    Однак ці моделі, як правило, вимагають величезної кількості енергоємних навчальних даних. Глибоке навчання залежало від його здатності використовувати величезну обчислювальну потужність, але незабаром це зміниться. Навчання коштує дорого, існують обмеження на мікросхеми штучного інтелекту, а навчання великих моделей забиває процесори, що ускладнює керування ними всіма. Чим більше параметр, тим дорожче обходиться навчання цих моделей. Експерти погоджуються, що настане момент, коли надрозмірні моделі AI можуть стати занадто дорогими та енергоємними для навчання. 

    Руйнівний вплив

    У 2020 році OpenAI оцінив мінімальний обсяг обчислень, необхідний для навчання численних моделей, враховуючи кількість параметрів і розмір набору даних. Ці рівняння враховують, як ML вимагає, щоб дані проходили через мережу багато разів, як обчислення для кожного проходу зростають із збільшенням кількості параметрів і скільки даних потрібно зі збільшенням кількості параметрів.

    Відповідно до оцінок Open AI, припускаючи, що розробники зможуть досягти максимальної ефективності, створення GPT-4 (у 100 разів більше, ніж GPT-3 (17.5 трильйонів параметрів)) вимагатиме 7,600 графічних процесорів (GPU), що працюють щонайменше протягом одного року, і коштуватиме приблизно 200 мільйонів доларів США. Модель зі 100 трильйонами параметрів потребуватиме 83,000 2 графічних процесорів для живлення протягом року, що коштуватиме понад XNUMX мільярди доларів США.

    Незважаючи на це, технологічні фірми співпрацюють і вливають інвестиції в свої надрозмірні моделі штучного інтелекту, що постійно розширюються, оскільки попит на рішення ML зростає. Наприклад, китайська компанія Baidu та Peng Cheng Lab випустили PCL-BAIDU Wenxin із 280 мільярдами параметрів. PCL-BAIDU вже використовується стрічками новин, пошуковою системою та цифровим помічником Baidu. 

    Остання версія програми Go-playing, яку DeepMind створила в грудні 2021 року, має 280 мільярдів параметрів. Моделі Google Switch-Transformer-GLaM мають приголомшливі 1 трильйон і 1.2 трильйона параметрів відповідно. Wu Dao 2.0 від Пекінської академії штучного інтелекту ще більш масивний і, як повідомляється, має 1.75 трильйона параметрів. Оскільки розумні міста та автоматизація продовжують підштовхувати збої, експерти не впевнені, як штучний інтелект підтримуватиме таке майбутнє. 

    Наслідки надрозмірних моделей ШІ

    Більш широкі наслідки надрозмірних моделей ШІ можуть включати: 

    • Збільшення інвестицій і можливостей у розробку комп’ютерних мікросхем ШІ, які споживають менше енергії. 
    • Розвиток штучного інтелекту сповільнився через брак обчислювальної потужності, що призвело до збільшення фінансування енергозберігаючих технологій і рішень.
    • Розробники ML створюють альтернативні моделі, окрім трансформаторів, що може призвести до відкриттів та інновацій для більш ефективних алгоритмів.
    • Рішення штучного інтелекту, зосереджені на проблемах, орієнтованих на додатки, відповідно налаштовують обчислення або змінюють за потреби замість простого збільшення розміру.
    • Складніші набори даних дозволяють програмам штучного інтелекту виконувати кращі прогнози, зокрема прогнози погоди, відкриття космосу, медичні діагнози та міжнародну торгівлю.

    Питання для коментарів

    • Якщо ви працюєте в секторі ШІ, який прогрес у розробці кращих моделей машинного навчання?
    • Які інші потенційні переваги моделей із обширними навчальними даними, на яких можна вчитися?

    Посилання на Insight

    Для цієї інформації використовувалися такі популярні та інституційні посилання: