Үлкен өлшемді AI үлгілерінің алып есептеу жүйелері шарықтау шегіне жетеді

Кредит суреті:

iStock

Үлкен өлшемді AI модельдері: алып есептеуіш жүйелер шарықтау шегіне жетуде

Машиналық оқытудың математикалық модельдері жыл сайын үлкейіп, жетілдіріліп келеді, бірақ сарапшылар бұл ауқымды алгоритмдер шыңына жетуге жақын деп санайды.

автор:
Автордың аты-жөні
Кванттық болжау
Маусым 2, 2023

2012 жылдан бастап жасанды интеллектте (AI) айтарлықтай жетістіктер тұрақты түрде орын алып келеді, негізінен есептеу қуатын арттыру («қысқаша есептеу»). 2020 жылы іске қосылған ең үлкен модельдердің бірі 600,000 жылғы бірінші модельге қарағанда 2012 2018 есе көп есептеуді пайдаланды. OpenAI зерттеушілері бұл үрдісті XNUMX жылы атап өтті және бұл өсу қарқыны ұзақ уақыт бойы тұрақты болмайтынын ескертті.

Үлкен өлшемді AI үлгілерінің контексі

Көптеген машиналық оқытуды (ML) әзірлеушілері олардың шексіз әлеуетіне байланысты терең оқыту (DL) үшін трансформатор үлгілерін пайдаланады. Бұл үлгілердің мысалдарына Генеративті алдын ала дайындалған трансформатор 2 (GPT-2), GPT-3, Трансформаторлардан алынған қос бағытты кодтаушы өкілдіктері (BERT) және Тюринг табиғи тілінің генерациясы (NLG) жатады. Бұл алгоритмдерде көбінесе машиналық аударма немесе уақыт қатарын болжау сияқты нақты қолданбалар болады.

Жасанды интеллект режимдері көбірек жаттығу деректерін орналастыру және болжауда жақсырақ болу үшін кеңеюі керек. Бұл талап миллиардтаған параметрлері бар (болжам жасау үшін алгоритмдер пайдаланатын айнымалылар) үлкен өлшемді модельдердің өсуіне әкелді. Бұл модельдер OpenAI GPT-3 (және оның ChatGPT өзара әрекеттесуі 2022 жылдың желтоқсанында іске қосылды), Қытайдағы PanGu-alpha, Nvidia Megatron-Turing NLG және DeepMind's Gopher арқылы ұсынылған. 2020 жылы GPT-3 оқыту үшін әлемдегі ең үлкен бестікке кіретін суперкомпьютер қажет болды.

Дегенмен, бұл модельдер көп энергияны қажет ететін жаттығу деректерін қажет етеді. Терең оқыту оның орасан зор есептеу қуатын пайдалану қабілетіне байланысты болды, бірақ бұл жақында өзгереді. Оқыту қымбат, AI чиптеріне шектеулер бар, ал үлкен үлгілерді оқыту процессорларды бітеп тастайды, бұл олардың барлығын басқаруды қиындатады. Параметр неғұрлым үлкен болса, бұл үлгілерді үйрету соғұрлым қымбатқа түседі. Сарапшылар жасанды интеллект үлгілері тым қымбатқа түсетін және жаттығу үшін энергияны көп қажет ететін сәт келеді деп келіседі.

Деструктивті әсер

2020 жылы OpenAI параметрлер саны мен деректер жиынының өлшемін ескере отырып, көптеген үлгілерді үйрету үшін қажетті есептеудің ең аз мөлшерін есептеді. Бұл теңдеулер ML деректердің желі арқылы бірнеше рет өтуін қалай талап ететінін, параметрлер саны артқан сайын әрбір өту үшін есептеу қалай өсетінін және параметрлер саны өскен сайын қанша деректер қажет болатынын есептейді.

Open AI бағалауларына сәйкес, әзірлеушілер максималды тиімділікке қол жеткізе алады деп есептесек, GPT-4 құру (GPT-100-тен 3 есе үлкен (17.5 триллион параметр)) кемінде бір жыл жұмыс істейтін 7,600 графикалық өңдеу блогын (GPU) қажет етеді және шамамен құны болады. АҚШ доллары 200 млн. 100 триллион параметрі бар модельге бір жыл бойы қуат беру үшін 83,000 2 графикалық процессор қажет болады, бұл XNUMX миллиард доллардан асады.

Соған қарамастан, технологиялық фирмалар ML шешімдеріне сұраныстың өсуіне қарай үнемі кеңейіп келе жатқан AI үлгілеріне бірлесе жұмыс істеп, инвестиция құюда. Мысалы, Қытайда орналасқан Baidu және Peng Cheng Lab 280 миллиард параметрі бар PCL-BAIDU Wenxin шығарды. PCL-BAIDU қазірдің өзінде Baidu жаңалықтар арналары, іздеу жүйесі және цифрлық көмекшісі арқылы қолданылуда.

DeepMind 2021 жылдың желтоқсанында жасаған Go-playing бағдарламасының соңғы нұсқасы 280 миллиард параметрге ие. Google Switch-Transformer-GLaM модельдерінің сәйкесінше таңқаларлық 1 триллион және 1.2 триллион параметрлері бар. Бейжіңдегі AI академиясының Ву Дао 2.0 нұсқасы одан да ауқымды және 1.75 триллион параметрі бар деп хабарланған. Ақылды қалалар мен автоматтандыру іркілістерді жалғастыруда, сарапшылар AI есептеулері мұндай болашақты қалай қолдайтынына сенімді емес.

Үлкен AI үлгілерінің салдары

Үлкен AI үлгілерінің кеңірек салдары мыналарды қамтуы мүмкін:

Қуатты аз тұтынатын AI компьютерлік чиптерін жасауға инвестициялар мен мүмкіндіктердің артуы.
AI прогрессі есептеу қуатының жетіспеушілігінен баяулады, бұл энергияны үнемдейтін технологиялар мен шешімдерге көбірек қаржыландыруға әкелді.
ML әзірлеушілері трансформаторлардан басқа, тиімдірек алгоритмдер үшін ашылулар мен инновацияларға әкелуі мүмкін балама үлгілерді жасайды.
Қолданбаға бағытталған мәселелерге назар аударатын, есептеуді сәйкесінше реттейтін немесе жай өлшемді өзгертудің орнына қажетінше өзгертуге бағытталған AI шешімдері.
AI бағдарламаларына ауа-райы болжамдарын, ғарышты ашуды, медициналық диагноздарды және халықаралық сауданы қоса алғанда, жақсы болжамдарды орындауға мүмкіндік беретін күрделі деректер жиынтығы.

Түсініктеме беруге арналған сұрақтар

Егер сіз AI секторында жұмыс істесеңіз, жақсы ML үлгілерін әзірлеуде қандай жетістіктер бар?
Оқыту үшін ауқымды деректері бар үлгілердің басқа қандай артықшылықтары бар?

тізіміне қосу