Superrozmiarowe modele sztucznej inteligencji: Gigantyczne systemy komputerowe osiągają punkt krytyczny

KREDYT WZROKU:
Image credit
iStock

Superrozmiarowe modele sztucznej inteligencji: Gigantyczne systemy komputerowe osiągają punkt krytyczny

Superrozmiarowe modele sztucznej inteligencji: Gigantyczne systemy komputerowe osiągają punkt krytyczny

Tekst podtytułu
Modele matematyczne uczenia maszynowego stają się z roku na rok coraz większe i bardziej wyrafinowane, ale eksperci uważają, że te ekspansywne algorytmy osiągną szczyt.
    • Autor:
    • nazwisko autora
      Foresight Quantumrun
    • 2 czerwca 2023 r.

    Od 2012 r. regularnie dochodziło do znaczących postępów w zakresie sztucznej inteligencji (AI), głównie dzięki zwiększaniu mocy obliczeniowej (w skrócie „compute”). Jeden z największych modeli, wprowadzony na rynek w 2020 r., wykorzystywał 600,000 2012 razy więcej mocy obliczeniowej niż pierwszy model z 2018 r. Naukowcy z OpenAI zauważyli ten trend w XNUMX r. i ostrzegli, że takie tempo wzrostu nie utrzyma się długo.

    Kontekst modeli AI o dużym rozmiarze

    Wielu programistów korzystających z uczenia maszynowego (ML) używa modeli transformatorów do głębokiego uczenia (DL) ze względu na ich pozornie nieograniczony potencjał. Przykłady tych modeli obejmują generatywny wstępnie wyszkolony transformator 2 (GPT-2), GPT-3, dwukierunkowe reprezentacje enkodera z transformatorów (BERT) i generowanie języka naturalnego Turinga (NLG). Algorytmy te często mają zastosowania w świecie rzeczywistym, takie jak tłumaczenie maszynowe lub przewidywanie szeregów czasowych. 

    Tryby sztucznej inteligencji muszą się rozszerzać, aby pomieścić więcej danych treningowych i lepiej przewidywać. Wymóg ten doprowadził do powstania superwymiarowych modeli z miliardami parametrów (zmiennych używanych przez algorytmy do przewidywania). Modele te są reprezentowane przez GPT-3 OpenAI (i jego interakcję ChatGPT uruchomioną w grudniu 2022 r.), PanGu-alpha z siedzibą w Chinach, Megatron-Turing NLG firmy Nvidia i Gopher firmy DeepMind. W 2020 roku szkolenie GPT-3 wymagało superkomputera, który był jednym z pięciu największych na świecie. 

    Jednak modele te zwykle wymagają ogromnych ilości energochłonnych danych treningowych. Głębokie uczenie się polegało na możliwości wykorzystania ogromnej mocy obliczeniowej, ale wkrótce to się zmieni. Szkolenie jest drogie, chipy AI mają ograniczenia, a szkolenie dużych modeli blokuje procesory, co utrudnia zarządzanie nimi wszystkimi. Im większy parametr, tym droższe jest uczenie tych modeli. Eksperci są zgodni, że nadejdzie moment, w którym superwymiarowe modele AI mogą stać się zbyt drogie i energochłonne do trenowania. 

    Zakłócający wpływ

    W 2020 r. OpenAI oszacowało minimalną ilość mocy obliczeniowej wymaganą do trenowania wielu modeli, biorąc pod uwagę liczbę parametrów i rozmiar zbioru danych. Równania te wyjaśniają, w jaki sposób uczenie maszynowe wymaga, aby dane przechodziły przez sieć wiele razy, jak wzrasta liczba obliczeń dla każdego przebiegu wraz ze wzrostem liczby parametrów oraz ile danych jest potrzebnych wraz ze wzrostem liczby parametrów.

    Według szacunków Open AI, zakładając, że programiści mogą osiągnąć maksymalną wydajność, zbudowanie GPT-4 (100 razy większego niż GPT-3 (17.5 biliona parametrów)) wymagałoby 7,600 procesorów graficznych (GPU) działających przez co najmniej rok i kosztowałoby ok. 200 milionów dolarów. Model o parametrach 100 bilionów wymagałby 83,000 2 procesorów graficznych do zasilania go przez rok, co kosztowałoby ponad XNUMX miliardy dolarów.

    Niemniej jednak firmy technologiczne współpracują i inwestują w swoje stale rozwijające się superrozmiarowe modele AI w miarę wzrostu zapotrzebowania na rozwiązania ML. Na przykład chińska firma Baidu i laboratorium Peng Cheng wypuściły PCL-BAIDU Wenxin z 280 miliardami parametrów. PCL-BAIDU jest już używany przez kanały informacyjne, wyszukiwarkę i asystenta cyfrowego Baidu. 

    Najnowsza wersja programu Go-playing, którą DeepMind stworzył w grudniu 2021 roku, ma 280 miliardów parametrów. Modele Google Switch-Transformer-GLaM mają odpowiednio 1 bilion i 1.2 biliona parametrów. Wu Dao 2.0 z Beijing Academy of AI jest jeszcze bardziej masywny i ma 1.75 biliona parametrów. Ponieważ inteligentne miasta i automatyzacja nadal powodują zakłócenia, eksperci nie są pewni, w jaki sposób obliczenia AI będą wspierać taką przyszłość. 

    Implikacje superwymiarowych modeli AI

    Szersze implikacje superrozmiarowych modeli AI mogą obejmować: 

    • Zwiększone inwestycje i możliwości w zakresie opracowywania chipów komputerowych AI, które zużywają mniej energii. 
    • Postęp w sztucznej inteligencji został spowolniony przez brak mocy obliczeniowej, co doprowadziło do zwiększenia funduszy na energooszczędne technologie i rozwiązania.
    • Deweloperzy ML tworzą alternatywne modele poza transformatorami, co może prowadzić do odkryć i innowacji w celu uzyskania bardziej wydajnych algorytmów.
    • Rozwiązania sztucznej inteligencji koncentrujące się na problemach związanych z aplikacjami, odpowiednio dostosowujące obliczenia lub modyfikujące w razie potrzeby zamiast po prostu zwiększania rozmiaru.
    • Bardziej złożone zestawy danych umożliwiające programom AI dokonywanie lepszych prognoz, w tym prognoz pogody, odkrywania kosmosu, diagnoz medycznych i handlu międzynarodowego.

    Pytania do skomentowania

    • Jeśli pracujesz w sektorze AI, jakie są postępy w opracowywaniu lepszych modeli ML?
    • Jakie są inne potencjalne zalety modeli z obszernymi danymi szkoleniowymi, z których można się uczyć?

    Referencje informacyjne

    W celu uzyskania tego wglądu odniesiono się do następujących popularnych i instytucjonalnych powiązań: