Модели со супериорна вештачка интелигенција: џиновските компјутерски системи ја достигнуваат точката на пресврт

КРЕДИТ НА СЛИКА:
Слика кредит
iStock

Модели со супериорна вештачка интелигенција: џиновските компјутерски системи ја достигнуваат точката на пресврт

Модели со супериорна вештачка интелигенција: џиновските компјутерски системи ја достигнуваат точката на пресврт

Текст за поднаслов
Математичките модели за машинско учење стануваат се поголеми и пософистицирани секоја година, но експертите мислат дека овие експанзивни алгоритми ќе го достигнат својот врв.
    • автор:
    • име на авторот
      Quantumrun Foresight
    • Јуни 2, 2023

    Од 2012 година, значаен напредок во вештачката интелигенција (ВИ) се случува редовно, главно поттикнат од зголемувањето на компјутерската моќ (накратко „пресметај“). Еден од најголемите модели, лансиран во 2020 година, користеше 600,000 пати повеќе пресметки од првиот модел од 2012 година. Истражувачите од OpenAI го забележаа овој тренд во 2018 година и предупредија дека оваа стапка на раст нема да биде одржлива долго.

    Контекст на модели со ВИ со голема големина

    Многу развивачи на машинско учење (ML) користат модели на трансформатори за длабоко учење (DL) поради нивниот навидум неограничен потенцијал. Примери за овие модели вклучуваат генеративен претходно обучен трансформатор 2 (GPT-2), GPT-3, двонасочни енкодерски претстави од трансформатори (BERT) и генерирање природни јазици Туринг (NLG). Овие алгоритми често имаат реални апликации како што се машински превод или предвидување временски серии. 

    Режимите на вештачка интелигенција треба да се прошират за да примат повеќе податоци за обука и да станат подобри во предвидувањата. Ова барање доведе до пораст на модели со големи димензии со милијарди параметри (променливи што ги користат алгоритмите за да прават предвидувања). Овие модели се претставени со GPT-3 на OpenAI (и неговата интеракција ChatGPT лансирана во декември 2022 година), PanGu-alpha со седиште во Кина, Megatron-Turing NLG на Nvidia и Gopher на DeepMind. Во 2020 година, обуката GPT-3 бараше суперкомпјутер кој беше меѓу петте најголеми во светот. 

    Сепак, овие модели имаат тенденција да бараат огромни количини на енергетски интензивни податоци за обука. Длабокото учење зависи од неговата способност да користи огромна компјутерска моќ, но тоа наскоро ќе се промени. Обуката е скапа, има ограничувања за чиповите со вештачка интелигенција, а тренирањето на големи модели ги затнува процесорите, што го отежнува управувањето со сите нив. Колку е поголем параметарот, толку е поскапо да се обучуваат овие модели. Експертите се согласуваат дека ќе дојде момент кога моделите со вештачка интелигенција со голема големина може да станат премногу скапи и енергетски интензивни за обука. 

    Нарушувачко влијание

    Во 2020 година, OpenAI го процени минималниот износ на пресметување потребен за обука на бројни модели, земајќи го предвид бројот на параметри и големината на податоци. Овие равенки објаснуваат како ML бара податоците да минуваат низ мрежата многу пати, како се зголемува пресметката за секое поминување како што се зголемува бројот на параметри и колку податоци се потребни како што расте бројот на параметри.

    Според проценките на Open AI, под претпоставка дека програмерите можат да постигнат максимална ефикасност,  изградбата на GPT-4 (100 пати поголема од GPT-3 (17.5 трилиони параметри)) ќе бара 7,600 графички процесорски единици (GPU) кои работат најмалку една година и чинат приближно 200 милиони американски долари. На модел со параметри од 100 трилиони ќе му требаат 83,000 графички процесори за да го напојуваат една година, што ќе чини повеќе од 2 милијарди американски долари.

    Како и да е, технолошките фирми соработуваат и вложуваат инвестиции во нивните постојано проширувачки модели на вештачка интелигенција со суперимензионирање додека расте побарувачката за ML решенија. На пример, кинеската Baidu и Peng Cheng Lab објавија PCL-BAIDU Wenxin, со 280 милијарди параметри. PCL-BAIDU веќе се користи од доводите за вести, пребарувачот и дигиталниот асистент на Baidu. 

    Најновата верзија на програмата Go-playing, која DeepMind ја создаде во декември 2021 година, има 280 милијарди параметри. Моделите на Google Switch-Transformer-GLaM имаат неверојатни 1 трилион и 1.2 трилиони параметри, соодветно. Ву Дао 2.0 од Академијата за вештачка интелигенција во Пекинг е уште помасивен и е пријавено дека има 1.75 трилиони параметри. Додека паметните градови и автоматиката продолжуваат да предизвикуваат прекини, експертите не се сигурни како пресметките со вештачка интелигенција ќе поддржат таква иднина. 

    Импликации на модели со вештачка интелигенција со голема големина

    Пошироките импликации на моделите со ВИ со голема големина може да вклучуваат: 

    • Зголемени инвестиции и можности за развој на компјутерски чипови со вештачка интелигенција кои трошат помалку енергија. 
    • Напредокот на вештачката интелигенција забави поради недостатокот на компјутерска моќ, што доведе до повеќе средства за технологии и решенија за заштеда на енергија.
    • Програмерите на ML создаваат алтернативни модели настрана од трансформатори, што може да доведе до откритија и иновации за поефикасни алгоритми.
    • Решенија за вештачка интелигенција кои се фокусираат на проблеми насочени кон апликацијата, соодветно прилагодување на пресметувањето или менување по потреба наместо само зголемување на големината.
    • Покомплексни сетови на податоци што им овозможуваат на програмите за вештачка интелигенција да вршат подобри предвидувања, вклучително временска прогноза, откривање на вселената, медицински дијагнози и меѓународна трговија.

    Прашања за коментирање

    • Ако работите во секторот за вештачка интелигенција, каков е напредокот во развојот на подобри ML модели?
    • Кои се другите потенцијални придобивки од моделите со обемни податоци за обука од кои треба да се учи?