Velké modely umělé inteligence: Obří výpočetní systémy dosahují bodu zlomu

KREDIT OBRAZU:
Kredit
iStock

Velké modely umělé inteligence: Obří výpočetní systémy dosahují bodu zlomu

Velké modely umělé inteligence: Obří výpočetní systémy dosahují bodu zlomu

Text podnadpisu
Matematické modely strojového učení jsou rok od roku větší a sofistikovanější, ale odborníci se domnívají, že tyto rozsáhlé algoritmy dosahují vrcholu.
    • Autor:
    • jméno autora
      Quantumrun Foresight
    • Června 2, 2023

    Od roku 2012 dochází pravidelně k významným pokrokům v oblasti umělé inteligence (AI), zejména díky rostoucímu výpočetnímu výkonu (zkráceně „compute“). Jeden z největších modelů, který byl uveden na trh v roce 2020, využíval 600,000 2012krát více výpočetní kapacity než první model z roku 2018. Výzkumníci z OpenAI zaznamenali tento trend v roce XNUMX a varovali, že toto tempo růstu nebude dlouho udržitelné.

    Kontext supervelkých modelů umělé inteligence

    Mnoho vývojářů strojového učení (ML) používá modely transformátorů pro hluboké učení (DL) kvůli jejich zdánlivě neomezenému potenciálu. Příklady těchto modelů zahrnují Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT) a Turing Natural Language Generation (NLG). Tyto algoritmy mají často aplikace v reálném světě, jako je strojový překlad nebo predikce časových řad. 

    Režimy umělé inteligence se musí rozšířit, aby pojaly více tréninkových dat a zlepšily se v předpovědích. Tento požadavek vedl ke vzniku supervelkých modelů s miliardami parametrů (proměnných používaných algoritmy k předpovědím). Tyto modely zastupují GPT-3 od OpenAI (a jeho interakce ChatGPT spuštěná v prosinci 2022), PanGu-alpha se sídlem v Číně, Megatron-Turing NLG od Nvidie a Gopher od DeepMind. V roce 2020 vyžadoval výcvik GPT-3 superpočítač, který patřil mezi pět největších na světě. 

    Tyto modely však obvykle vyžadují obrovské množství energeticky náročných tréninkových dat. Hluboké učení záviselo na jeho schopnosti využívat obrovský výpočetní výkon, ale to se brzy změní. Školení je drahé, čipy AI mají své limity a školení velkých modelů zanáší procesory, takže je obtížné je všechny spravovat. Čím větší parametr, tím nákladnější je trénink těchto modelů. Odborníci se shodují, že přijde bod, kdy se nadrozměrné modely umělé inteligence mohou stát příliš drahými a energeticky náročnými na trénink. 

    Rušivý dopad

    V roce 2020 odhadla OpenAI minimální množství výpočtů potřebné k trénování mnoha modelů, přičemž zohlednila počet parametrů a velikost datové sady. Tyto rovnice vysvětlují, jak ML vyžaduje, aby data procházela sítí mnohokrát, jak počet pro každý průchod stoupá s rostoucím počtem parametrů a kolik dat je potřeba s rostoucím počtem parametrů.

    Podle odhadů Open AI, za předpokladu, že vývojáři dokážou dosáhnout maximální efektivity, by stavba GPT-4 (100krát větší než GPT-3 (17.5 bilionu parametrů)) vyžadovala 7,600 200 grafických procesorových jednotek (GPU) běžících alespoň jeden rok a stála by přibližně 100 milionů USD. Model se 83,000 biliony parametrů by potřeboval k napájení 2 XNUMX GPU po dobu jednoho roku, což by stálo více než XNUMX miliardy USD.

    Technologické firmy nicméně spolupracují a investují do svých neustále se rozšiřujících supervelkých modelů umělé inteligence, protože poptávka po řešeních ML roste. Například společnost Baidu se sídlem v Číně a laboratoř Peng Cheng Lab vydaly PCL-BAIDU Wenxin s 280 miliardami parametrů. PCL-BAIDU již používají zpravodajské kanály Baidu, vyhledávač a digitální asistent. 

    Nejnovější verze programu Go-playing, kterou DeepMind vytvořil v prosinci 2021, má 280 miliard parametrů. Modely Google Switch-Transformer-GLaM mají ohromující 1 bilion, respektive 1.2 bilionu parametrů. Wu Dao 2.0 z Pekingské akademie umělé inteligence je ještě masivnější a uvádí se, že má 1.75 bilionu parametrů. Vzhledem k tomu, že chytrá města a automatizace pokračují v narušení provozu, odborníci si nejsou jisti, jak AI compute takovou budoucnost podpoří. 

    Důsledky nadrozměrných modelů umělé inteligence

    Širší důsledky nadrozměrných modelů umělé inteligence mohou zahrnovat: 

    • Zvýšené investice a příležitosti do vývoje počítačových čipů AI, které spotřebují méně energie. 
    • Pokrok AI zpomalil nedostatek výpočetního výkonu, což vedlo k většímu financování technologií a řešení šetřících energii.
    • Vývojáři ML vytvářející alternativní modely kromě transformátorů, které mohou vést k objevům a inovacím pro efektivnější algoritmy.
    • Řešení AI se zaměřují na problémy zaměřené na aplikace, odpovídajícím způsobem upravují výpočet nebo se podle potřeby upravují namísto pouhého nadměrování.
    • Složitější datové sady umožňující programům AI provádět lepší předpovědi, včetně předpovědí počasí, objevování vesmíru, lékařských diagnóz a mezinárodního obchodování.

    Otázky ke komentáři

    • Pokud pracujete v sektoru umělé inteligence, jaký je pokrok ve vývoji lepších modelů ML?
    • Jaké jsou další potenciální výhody modelů s rozsáhlými tréninkovými daty, ze kterých se lze učit?

    Statistikové reference

    Následující populární a institucionální odkazy byly uvedeny pro tento náhled: