Суперголеми AI модели: Гигантските изчислителни системи достигат повратната точка

КРЕДИТ ЗА ИЗОБРАЖЕНИЕ:
Изображение на кредит
iStock

Суперголеми AI модели: Гигантските изчислителни системи достигат повратната точка

Суперголеми AI модели: Гигантските изчислителни системи достигат повратната точка

Подзаглавен текст
Математическите модели за машинно обучение стават все по-големи и по-сложни всяка година, но експертите смятат, че тези експанзивни алгоритми са на път да достигнат своя връх.
    • Автор:
    • име Автор
      Quantumrun Foresight
    • Юни 2, 2023

    От 2012 г. насам значителен напредък в областта на изкуствения интелект (AI) се наблюдава редовно, главно поради увеличаване на изчислителната мощност (накратко „изчисляване“). Един от най-големите модели, пуснат през 2020 г., използва 600,000 2012 пъти повече изчисления от първия модел от 2018 г. Изследователи от OpenAI отбелязаха тази тенденция през XNUMX г. и предупредиха, че този темп на растеж няма да бъде устойчив за дълго.

    Контекст на свръхголеми AI модели

    Много разработчици на машинно обучение (ML) използват трансформаторни модели за дълбоко обучение (DL) поради техния привидно неограничен потенциал. Примери за тези модели включват Generative Pre-trained Transformer 2 (GPT-2), GPT-3, двупосочни енкодерни представяния от Transformers (BERT) и Turing Natural Language Generation (NLG). Тези алгоритми често имат приложения в реалния свят, като машинен превод или прогнозиране на времеви серии. 

    Режимите на изкуствен интелект трябва да се разширят, за да поемат повече данни за обучение и да станат по-добри в прогнозите. Това изискване доведе до появата на свръхголеми модели с милиарди параметри (променливи, използвани от алгоритмите за правене на прогнози). Тези модели са представени от GPT-3 на OpenAI (и взаимодействието му с ChatGPT, стартирано през декември 2022 г.), базираната в Китай PanGu-alpha, Megatron-Turing NLG на Nvidia и Gopher на DeepMind. През 2020 г. обучението на GPT-3 изискваше суперкомпютър, който беше сред петте най-големи в света. 

    Въпреки това, тези модели са склонни да изискват огромни количества енергоемки данни за обучение. Дълбокото обучение зависи от способността му да използва огромна изчислителна мощност, но това скоро ще се промени. Обучението е скъпо, има ограничения за AI чиповете, а обучението на големи модели задръства процесорите, което затруднява управлението на всички тях. Колкото по-голям е параметърът, толкова по-скъпо е обучението на тези модели. Експертите са съгласни, че ще настъпи момент, в който свръхразмерните AI модели може да станат твърде скъпи и енергоемки за обучение. 

    Разрушително въздействие

    През 2020 г. OpenAI оцени минималното количество изчисления, необходимо за обучение на множество модели, като взе предвид броя на параметрите и размера на набора от данни. Тези уравнения отчитат как ML изисква данните да преминават през мрежата много пъти, как изчисленията за всяко преминаване нарастват с нарастването на броя на параметрите и колко данни са необходими с нарастването на броя на параметрите.

    Според оценките на Open AI, ако приемем, че разработчиците могат да постигнат максимална ефективност, изграждането на GPT-4 (100 пъти по-голям от GPT-3 (17.5 трилиона параметри)) ще изисква 7,600 графични процесора (GPU), работещи в продължение на поне една година и струва приблизително 200 милиона щатски долара. Модел със 100 трилиона параметри ще се нуждае от 83,000 2 графични процесора, за да го захранва за една година, струвайки повече от XNUMX милиарда щатски долара.

    Независимо от това, технологичните фирми си сътрудничат и наливат инвестиции в своите непрекъснато разширяващи се свръхголеми AI модели, тъй като търсенето на ML решения нараства. Например базираната в Китай Baidu и лабораторията Peng Cheng пуснаха PCL-BAIDU Wenxin с 280 милиарда параметри. PCL-BAIDU вече се използва от емисиите с новини, търсачката и цифровия асистент на Baidu. 

    Последната версия на програмата Go-playing, която DeepMind създаде през декември 2021 г., има 280 милиарда параметри. Моделите на Google Switch-Transformer-GLaM имат съответно зашеметяващите 1 трилион и 1.2 трилиона параметри. Wu Dao 2.0 от Академията за изкуствен интелект в Пекин е още по-масивна и се съобщава, че има 1.75 трилиона параметри. Тъй като интелигентните градове и автоматизацията продължават да водят до прекъсвания, експертите не са сигурни как AI изчисленията ще поддържат такова бъдеще. 

    Последици от свръхголеми AI модели

    По-широките последици от свръхразмерните AI модели могат да включват: 

    • Повишени инвестиции и възможности за разработване на AI компютърни чипове, които консумират по-малко енергия. 
    • Напредъкът на ИИ се забавя поради липсата на изчислителна мощност, което води до повече финансиране за енергоспестяващи технологии и решения.
    • Разработчиците на ML създават алтернативни модели освен трансформаторите, което може да доведе до открития и иновации за по-ефективни алгоритми.
    • Решения с изкуствен интелект, фокусирани върху проблеми, ориентирани към приложенията, съответно коригиране на изчисленията или модифициране според нуждите, вместо просто увеличаване на размера.
    • По-сложни набори от данни, позволяващи на AI програмите да извършват по-добри прогнози, включително прогнози за времето, откриване на космоса, медицински диагнози и международна търговия.

    Въпроси за коментар

    • Ако работите в сектора на ИИ, какъв е напредъкът в разработването на по-добри ML модели?
    • Какви са другите потенциални ползи от модели с обширни данни за обучение, от които да се учим?

    Препратки към Insight

    Следните популярни и институционални връзки бяха посочени за тази информация: