Огромни АИ модели џиновски рачунарски системи достижу прекретницу

КРЕДИТ ЗА СЛИКУ:

иСтоцк

Велики АИ модели: Џиновски рачунарски системи достижу прекретницу

Математички модели машинског учења сваке године постају све већи и софистициранији, али стручњаци сматрају да ће ови експанзивни алгоритми ускоро достићи врхунац.

Аутор:
ime аутора
Куантумрун Форесигхт
Јун 2, 2023

Од 2012. редовно се дешавају значајни напредак у вештачкој интелигенцији (АИ), углавном вођен повећањем рачунарске снаге (скраћено „рачунај“). Један од највећих модела, лансиран 2020. године, користио је 600,000 пута више рачунара од првог модела из 2012. Истраживачи у ОпенАИ-у су приметили овај тренд у 2018. и упозорили да ова стопа раста неће бити дуго одржива.

Контекст великих АИ модела

Многи програмери машинског учења (МЛ) користе трансформаторске моделе за дубоко учење (ДЛ) због њиховог наизглед неограниченог потенцијала. Примери ових модела укључују Генеративни унапред обучени трансформатор 2 (ГПТ-2), ГПТ-3, Бидирецтионал Енцодер Репрезентатионс фром Трансформерс (БЕРТ) и Туринг Натурал Лангуаге Генератион (НЛГ). Ови алгоритми често имају апликације у стварном свету као што су машинско превођење или предвиђање временских серија.

Режими вештачке интелигенције морају да се прошире да би прихватили више података о обуци и постали бољи у предвиђањима. Овај захтев је довео до пораста модела великих димензија са милијардама параметара (варијабле које алгоритми користе за предвиђање). Ове моделе представљају ОпенАИ ГПТ-3 (и његова ЦхатГПТ интеракција покренута у децембру 2022.), ПанГу-алпха са седиштем у Кини, Нвидијин Мегатрон-Туринг НЛГ и ДеепМиндов Гопхер. У 2020. за обуку ГПТ-3 био је потребан суперкомпјутер који је био међу пет највећих на свету.

Међутим, ови модели имају тенденцију да захтевају огромне количине енергетски интензивних података о обуци. Дубоко учење зависи од његове способности да користи огромну рачунарску снагу, али то ће се ускоро променити. Обука је скупа, постоје ограничења за АИ чипове, а обука великих модела зачепљује процесоре, што отежава управљање свима њима. Што је већи параметар, скупље је обучавање ових модела. Стручњаци се слажу да ће доћи до тачке у којој ће велики модели вештачке интелигенције постати прескупи и енергетски интензивни за обуку.

Ометајући утицај

У 2020., ОпенАИ је проценио минималну количину рачунара потребну за обуку бројних модела, узимајући у обзир број параметара и величину скупа података. Ове једначине објашњавају како МЛ захтева да ти подаци прођу кроз мрежу много пута, како израчунавање за сваки пролаз расте како се број параметара повећава и колико података је потребно како број параметара расте.

Према проценама Опен АИ, под претпоставком да програмери могу да постигну максималну ефикасност, изградња ГПТ-4 (100 пута већи од ГПТ-3 (17.5 трилиона параметара)) захтевала би 7,600 графичких процесорских јединица (ГПУ) које би радиле најмање годину дана и коштале би отприлике 200 милиона долара. Модел параметара од 100 трилиона би требао 83,000 ГПУ-а да га напаја годину дана, што кошта више од 2 милијарде долара.

Без обзира на то, технолошке компаније сарађују и улажу у своје све веће моделе АИ велике величине како потражња за МЛ решењима расте. На пример, Баиду са седиштем у Кини и Пенг Цхенг Лаб објавили су ПЦЛ-БАИДУ Венкин, са 280 милијарди параметара. ПЦЛ-БАИДУ већ користе Баиду-ови извори вести, претраживач и дигитални асистент.

Најновија верзија програма Го-плаиинг, коју је ДеепМинд направио у децембру 2021. године, има 280 милијарди параметара. Модели Гоогле Свитцх-Трансформер-ГЛаМ имају невероватних 1 трилион и 1.2 трилиона параметара, респективно. Ву Дао 2.0 са Пекиншке академије вештачке интелигенције је још масивнији и наводно има 1.75 трилиона параметара. Како паметни градови и аутоматизација настављају да изазивају поремећаје, стручњаци нису сигурни како ће АИ рачунарство подржати такву будућност.

Импликације великих АИ модела

Шире импликације великих АИ модела могу укључивати:

Повећана улагања и могућности у развоју АИ компјутерских чипова који троше мање енергије.
Напредак вештачке интелигенције успорен је недостатком рачунарске снаге, што је довело до већег финансирања технологија и решења за уштеду енергије.
МЛ програмери креирају алтернативне моделе осим трансформатора, што може довести до открића и иновација за ефикасније алгоритме.
Решења вештачке интелигенције која се фокусирају на проблеме усредсређене на апликације, прилагођавајући рачунање у складу са тим или модификујући по потреби уместо само повећања величине.
Сложенији скупови података који омогућавају АИ програмима да изводе боља предвиђања, укључујући временску прогнозу, откривање свемира, медицинске дијагнозе и међународну трговину.

Питања за коментарисање

Ако радите у сектору вештачке интелигенције, који је напредак у развоју бољих модела МЛ?
Које су друге потенцијалне предности модела са обимним подацима о обуци за учење?

Dodaj na spisak