Supersized AI models: Ang mga higanteng computing system ay umaabot sa tipping point

CREDIT NG LARAWAN:
Image credit
iStock

Supersized AI models: Ang mga higanteng computing system ay umaabot sa tipping point

Supersized AI models: Ang mga higanteng computing system ay umaabot sa tipping point

Teksto ng subheading
Ang mga machine learning mathematical models ay nagiging mas malaki at mas sopistikado taun-taon, ngunit sa tingin ng mga eksperto ay malapit nang umakyat ang mga malalawak na algorithm na ito.
    • May-akda:
    • pangalan Author
      Quantumrun Foresight
    • Hunyo 2, 2023

    Mula noong 2012, ang mga makabuluhang pag-unlad sa artificial intelligence (AI) ay regular na naganap, pangunahin nang hinihimok ng pagtaas ng kapangyarihan sa pag-compute ("compute" sa madaling salita). Isa sa mga pinakamalaking modelo, na inilunsad noong 2020, ay gumamit ng 600,000 beses na mas maraming compute kaysa sa unang modelo mula 2012. Napansin ng mga mananaliksik sa OpenAI ang trend na ito noong 2018 at nagbabala na ang rate ng paglago na ito ay hindi magiging sustainable nang matagal.

    Konteksto ng supersized na AI models

    Maraming machine learning (ML) developer ang gumagamit ng mga transformer model para sa deep learning (DL) dahil sa kanilang tila walang limitasyong potensyal. Kasama sa mga halimbawa ng mga modelong ito ang Generative Pre-trained Transformer 2 (GPT-2), GPT-3, Bidirectional Encoder Representations from Transformers (BERT), at Turing Natural Language Generation (NLG). Ang mga algorithm na ito ay kadalasang may mga real-world na application gaya ng machine translation o time series na hula. 

    Ang mga mode ng artificial intelligence ay kailangang lumawak upang mapaunlakan ang higit pang data ng pagsasanay at maging mas mahusay sa mga hula. Ang pangangailangang ito ay humantong sa pagtaas ng mga supersized na modelo na may bilyun-bilyong parameter (mga variable na ginagamit ng mga algorithm upang gumawa ng mga hula). Ang mga modelong ito ay kinakatawan ng OpenAI's GPT-3 (at ang ChatGPT na pakikipag-ugnayan nito na inilunsad noong Disyembre 2022), China-based PanGu-alpha, Nvidia's Megatron-Turing NLG, at DeepMind's Gopher. Noong 2020, ang pagsasanay sa GPT-3 ay nangangailangan ng isang supercomputer na kabilang sa limang pinakamalaking sa mundo. 

    Gayunpaman, ang mga modelong ito ay malamang na nangangailangan ng napakalaking dami ng data ng pagsasanay na masinsinang enerhiya. Ang malalim na pag-aaral ay nakadepende sa kakayahan nitong gumamit ng napakalaking compute power, ngunit ito ay malapit nang magbago. Ang pagsasanay ay mahal, may mga limitasyon sa AI chips, at ang pagsasanay sa malalaking modelo ay bumabara sa mga processor, na ginagawang mahirap na pamahalaan ang lahat ng ito. Kung mas malaki ang parameter, mas magastos ang pagsasanay sa mga modelong ito. Sumasang-ayon ang mga eksperto na darating ang punto kung saan ang mga supersized na modelo ng AI ay maaaring maging masyadong mahal at enerhiya-intensive para sanayin. 

    Nakakagambalang epekto

    Noong 2020, tinantya ng OpenAI ang minimum na halaga ng pag-compute na kinakailangan para sanayin ang maraming modelo, na isinasaalang-alang ang bilang ng mga parameter at laki ng dataset. Isinasaalang-alang ng mga equation na ito kung paano hinihiling ng ML na dumaan ang data sa network nang maraming beses, kung paano tumataas ang pagkalkula para sa bawat pass habang tumataas ang bilang ng mga parameter, at kung gaano karaming data ang kailangan habang lumalaki ang bilang ng mga parameter.

    Ayon sa mga pagtatantya ng Open AI, sa pag-aakalang makakamit ng mga developer ang pinakamataas na kahusayan, ang pagbuo ng GPT-4 (100 beses na mas malaki kaysa sa GPT-3 (17.5 trilyong parameter)) ay mangangailangan ng 7,600 graphics processing units (GPU) na tumatakbo nang hindi bababa sa isang taon at nagkakahalaga ng humigit-kumulang USD $200 milyon. Ang isang 100-trilyong parameter na modelo ay mangangailangan ng 83,000 GPU para ma-power ito sa loob ng isang taon, na nagkakahalaga ng higit sa USD $2 bilyon.

    Gayunpaman, ang mga tech firm ay nagtutulungan at nagbubuhos ng mga pamumuhunan sa kanilang patuloy na lumalawak na supersized na mga modelo ng AI habang lumalaki ang pangangailangan para sa mga solusyon sa ML. Halimbawa, ang Baidu na nakabase sa China at ang Peng Cheng Lab ay naglabas ng PCL-BAIDU Wenxin, na may 280 bilyong parameter. Ginagamit na ang PCL-BAIDU ng mga news feed, search engine, at digital assistant ng Baidu. 

    Ang pinakabagong bersyon ng Go-playing program, na ginawa ng DeepMind noong Disyembre 2021, ay mayroong 280 bilyong parameter. Ang mga modelo ng Google Switch-Transformer-GLaM ay may nakakagulat na 1 trilyon at 1.2 trilyong parameter, ayon sa pagkakabanggit. Ang Wu Dao 2.0 mula sa Beijing Academy of AI ay mas malaki at naiulat na mayroong 1.75 trilyong parameter. Habang patuloy na nagtutulak ng mga pagkagambala ang mga matalinong lungsod at automation, hindi sigurado ang mga eksperto kung paano susuportahan ng AI compute ang gayong hinaharap. 

    Mga implikasyon ng supersized na mga modelo ng AI

    Maaaring kabilang sa mas malawak na implikasyon ng supersized na mga modelo ng AI ang: 

    • Tumaas na pamumuhunan at pagkakataon sa pagbuo ng mga AI computer chips na kumokonsumo ng mas kaunting enerhiya. 
    • Bumagal ang pag-unlad ng AI dahil sa kakulangan ng kapangyarihan sa pag-compute, na humahantong sa mas maraming pondo para sa mga teknolohiya at solusyon na nagtitipid ng enerhiya.
    • Ang mga developer ng ML ay gumagawa ng mga alternatibong modelo bukod sa mga transformer, na maaaring humantong sa mga pagtuklas at pagbabago para sa mas mahusay na mga algorithm.
    • Mga solusyon sa AI na tumutuon sa mga problemang nakasentro sa aplikasyon, pagsasaayos ng compute nang naaayon o pagbabago kung kinakailangan sa halip na papalitan lamang ang laki.
    • Mas kumplikadong mga dataset na nagbibigay-daan sa mga programa ng AI na magsagawa ng mas mahusay na mga hula, kabilang ang mga pagtataya ng panahon, pagtuklas sa espasyo, mga medikal na diagnosis, at internasyonal na kalakalan.

    Mga tanong na ikokomento

    • Kung nagtatrabaho ka sa sektor ng AI, ano ang ilang pag-unlad sa pagbuo ng mas mahuhusay na modelo ng ML?
    • Ano ang iba pang potensyal na benepisyo ng mga modelong may malawak na data ng pagsasanay upang matutunan?

    Mga sanggunian ng insight

    Ang mga sumusunod na sikat at institusyonal na link ay isinangguni para sa pananaw na ito: