Звышпамерныя мадэлі штучнага інтэлекту: гіганцкія вылічальныя сістэмы дасягаюць пераломнага моманту

КРЭДЫТ ВЫЯВЫ:
Крэдыт малюнка
Istock

Звышпамерныя мадэлі штучнага інтэлекту: гіганцкія вылічальныя сістэмы дасягаюць пераломнага моманту

Звышпамерныя мадэлі штучнага інтэлекту: гіганцкія вылічальныя сістэмы дасягаюць пераломнага моманту

Тэкст падзагалоўка
Матэматычныя мадэлі машыннага навучання з кожным годам становяцца ўсё больш і больш дасканалымі, але эксперты мяркуюць, што гэтыя шырокія алгарытмы вось-вось дасягнуць піку.
    • аўтар:
    • імя аўтара
      Quantumrun Foresight
    • Чэрвень 2, 2023

    З 2012 года значны прагрэс у галіне штучнага інтэлекту (AI) адбываўся рэгулярна, галоўным чынам дзякуючы павелічэнню вылічальнай магутнасці (скарочана «вылічваць»). Адна з найбуйнейшых мадэляў, запушчаная ў 2020 годзе, выкарыстала ў 600,000 2012 разоў больш вылічэнняў, чым першая мадэль 2018 года. Даследчыкі OpenAI адзначылі гэтую тэндэнцыю ў XNUMX годзе і папярэдзілі, што такія тэмпы росту не будуць працягвацца доўга.

    Кантэкст мадэляў суперпамернага штучнага інтэлекту

    Многія распрацоўшчыкі машыннага навучання (ML) выкарыстоўваюць мадэлі трансфарматараў для глыбокага навучання (DL) з-за іх, здавалася б, бязмежнага патэнцыялу. Прыклады гэтых мадэляў ўключаюць Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) і Turing Natural Language Generation (NLG). Гэтыя алгарытмы часта маюць рэальныя прыкладанні, такія як машынны пераклад або прагназаванне часовых шэрагаў. 

    Рэжымы штучнага інтэлекту павінны пашырацца, каб змясціць больш навучальных даных і стаць лепшымі ў прагнозах. Гэта патрабаванне прывяло да з'яўлення суперпамерных мадэляў з мільярдамі параметраў (зменных, якія выкарыстоўваюцца алгарытмамі для прагназавання). Гэтыя мадэлі прадстаўлены GPT-3 ад OpenAI (і яго ўзаемадзеянне ChatGPT, запушчанае ў снежні 2022 г.), кітайскі PanGu-alpha, Megatron-Turing NLG ад Nvidia і Gopher ад DeepMind. У 2020 годзе для навучання GPT-3 патрабаваўся суперкампутар, які ўваходзіў у пяцёрку найбуйнейшых у свеце. 

    Тым не менш, гэтыя мадэлі, як правіла, патрабуюць велізарнай колькасці энергаёмістых навучальных дадзеных. Глыбокае навучанне залежала ад яго здольнасці выкарыстоўваць велізарную вылічальную магутнасць, але гэта хутка зменіцца. Навучанне каштуе дорага, ёсць абмежаванні на чыпы штучнага інтэлекту, а навучанне вялікіх мадэляў засмечвае працэсары, што ўскладняе кіраванне імі ўсімі. Чым больш гэты параметр, тым даражэй навучаць гэтыя мадэлі. Эксперты сыходзяцца ў меркаванні, што наступіць момант, калі вялікія мадэлі AI могуць стаць занадта дарагімі і энергаёмістымі для навучання. 

    Разбуральнае ўздзеянне

    У 2020 годзе OpenAI ацаніў мінімальны аб'ём вылічэнняў, неабходных для навучання шматлікіх мадэляў, з улікам колькасці параметраў і памеру набору даных. Гэтыя ўраўненні ўлічваюць, як ML патрабуе, каб даныя праходзілі праз сетку шмат разоў, як павялічваецца колькасць вылічэнняў для кожнага праходу з павелічэннем колькасці параметраў і колькі даных патрабуецца з павелічэннем колькасці параметраў.

    Згодна з ацэнкамі Open AI, калі выказаць здагадку, што распрацоўшчыкі змогуць дасягнуць максімальнай эфектыўнасці, стварэнне GPT-4 (у 100 разоў больш, чым GPT-3 (17.5 трыльёнаў параметраў)) запатрабуе 7,600 графічных працэсараў (GPU), якія працуюць як мінімум на працягу аднаго года і каштуюць прыблізна 200 мільёнаў долараў ЗША. Мадэль са 100 трыльёнамі параметраў патрабуе 83,000 2 графічных працэсараў для харчавання на працягу года, што каштуе больш за XNUMX мільярды долараў.

    Тым не менш, тэхналагічныя фірмы супрацоўнічаюць і ўкладваюць інвестыцыі ў свае звышпамерныя мадэлі штучнага інтэлекту, якія пастаянна пашыраюцца, па меры росту попыту на рашэнні ML. Напрыклад, кітайская кампанія Baidu і лабараторыя Peng Cheng выпусцілі PCL-BAIDU Wenxin з 280 мільярдамі параметраў. PCL-BAIDU ўжо выкарыстоўваецца стужкамі навін, пошукавай сістэмай і лічбавым памочнікам Baidu. 

    Апошняя версія праграмы Go-playing, якую DeepMind стварыла ў снежні 2021 года, мае 280 мільярдаў параметраў. Мадэлі Google Switch-Transformer-GLaM маюць ашаламляльныя 1 трыльён і 1.2 трыльёна параметраў адпаведна. Wu Dao 2.0 ад Пекінскай акадэміі штучнага інтэлекту яшчэ больш масіўны і, як паведамляецца, мае 1.75 трыльёна параметраў. Паколькі разумныя гарады і аўтаматызацыя працягваюць падштурхоўваць збоі, эксперты не ўпэўненыя, як штучны інтэлект падтрымае такую ​​будучыню. 

    Наступствы звышпамерных мадэляў штучнага інтэлекту

    Больш шырокія наступствы звышпамерных мадэляў штучнага інтэлекту могуць уключаць: 

    • Павелічэнне інвестыцый і магчымасцей у распрацоўку камп'ютэрных чыпаў AI, якія спажываюць менш энергіі. 
    • Прагрэс штучнага інтэлекту запаволіўся з-за недахопу вылічальнай магутнасці, што прывяло да павелічэння фінансавання энергазберагальных тэхналогій і рашэнняў.
    • Распрацоўшчыкі ML ствараюць альтэрнатыўныя мадэлі акрамя трансфарматараў, што можа прывесці да адкрыццяў і інавацый для больш эфектыўных алгарытмаў.
    • Рашэнні штучнага інтэлекту, арыентаваныя на задачы, арыентаваныя на прыкладанні, адпаведна карэктуючы вылічэнні або мадыфікуючы іх па меры неабходнасці, а не проста павялічваючы памер.
    • Больш складаныя наборы даных дазваляюць праграмам штучнага інтэлекту рабіць лепшыя прагнозы, у тым ліку прагнозы надвор'я, адкрыццё космасу, медыцынскія дыягназы і міжнародны гандаль.

    Пытанні для каментавання

    • Калі вы працуеце ў сектары штучнага інтэлекту, які прагрэс у распрацоўцы лепшых мадэляў ML?
    • Якія яшчэ магчымыя перавагі мадэляў з шырокімі навучальнымі дадзенымі, на якіх можна вучыцца?

    Спасылкі Insight

    Наступныя папулярныя і інстытуцыйныя спасылкі былі выкарыстаны для гэтай інфармацыі: