Sistemet kompjuterike gjigante të modeleve AI po arrijnë pikën më të lartë

KREDI I IMAZHIT:

iStock

Modele të supersized AI: Sistemet gjigante kompjuterike po arrijnë pikën e fundit

Modelet matematikore të mësimit të makinerive po bëhen më të mëdha dhe më të sofistikuara çdo vit, por ekspertët mendojnë se këto algoritme ekspansive janë gati të arrijnë kulmin.

Author:
Emri i autorit
Parashikimi Kuantumrun
Qershor 2, 2023

Që nga viti 2012, përparime të rëndësishme në inteligjencën artificiale (AI) kanë ndodhur rregullisht, kryesisht të nxitura nga rritja e fuqisë kompjuterike (shkurt "llogarit"). Një nga modelet më të mëdha, i lançuar në vitin 2020, përdori 600,000 herë më shumë llogaritje se modeli i parë i vitit 2012. Studiuesit në OpenAI vunë re këtë prirje në 2018 dhe paralajmëruan se kjo normë rritjeje nuk do të ishte e qëndrueshme për një kohë të gjatë.

Konteksti i modeleve të supersized AI

Shumë zhvillues të mësimit të makinerive (ML) përdorin modele transformatorësh për mësim të thellë (DL) për shkak të potencialit të tyre në dukje të pakufishëm. Shembuj të këtyre modeleve përfshijnë Transformerin 2 të Trajnuar Paraprakisht Gjenerativ (GPT-2), GPT-3, Përfaqësimet e Koduesit Dydrejtues nga Transformatorët (BERT) dhe Gjenerimi i Gjuhëve Natyrore Turing (NLG). Këto algoritme shpesh kanë aplikacione të botës reale, si përkthimi me makinë ose parashikimi i serive kohore.

Mënyrat e inteligjencës artificiale duhet të zgjerohen për të akomoduar më shumë të dhëna trajnimi dhe për t'u bërë më të mirë në parashikime. Kjo kërkesë ka çuar në rritjen e modeleve të mbipërmasave me miliarda parametra (variabla që përdoren nga algoritmet për të bërë parashikime). Këto modele përfaqësohen nga GPT-3 i OpenAI (dhe ndërveprimi i tij ChatGPT i nisur në dhjetor 2022), PanGu-alpha me bazë në Kinë, Megatron-Turing NLG i Nvidia dhe Gopher i DeepMind. Në vitin 2020, trajnimi GPT-3 kërkonte një superkompjuter që ishte ndër pesë më të mëdhenjtë në botë.

Megjithatë, këto modele kanë tendencë të kërkojnë sasi masive të të dhënave trajnimi me energji intensive. Mësimi i thellë është varur nga aftësia e tij për të përdorur fuqi të madhe llogaritëse, por kjo së shpejti do të ndryshojë. Trajnimi është i shtrenjtë, ka kufizime për çipat e AI dhe trajnimi i modeleve të mëdha bllokon procesorët, duke e bërë të vështirë menaxhimin e të gjithëve. Sa më i madh të jetë parametri, aq më i kushtueshëm është trajnimi i këtyre modeleve. Ekspertët pajtohen se do të vijë një pikë ku modelet e supersized AI mund të bëhen shumë të shtrenjta dhe energji intensive për t'u trajnuar.

Ndikim shkatërrues

Në vitin 2020, OpenAI vlerësoi sasinë minimale të llogaritjes së nevojshme për të trajnuar modele të shumta, duke marrë parasysh numrin e parametrave dhe madhësinë e të dhënave. Këto ekuacione tregojnë se si ML kërkon që të dhënat të kalojnë nëpër rrjet shumë herë, si llogaritet për çdo kalim rritet ndërsa numri i parametrave rritet dhe sa të dhëna nevojiten ndërsa numri i parametrave rritet.

Sipas vlerësimeve të Open AI, duke supozuar se zhvilluesit mund të arrijnë efikasitetin maksimal, ndërtimi i GPT-4 (100 herë më i madh se GPT-3 (17.5 trilion parametra)) do të kërkonte 7,600 njësi përpunimi grafik (GPU) që funksionojnë për të paktën një vit dhe kushtojnë afërsisht 200 milionë dollarë. Një model me parametra 100 trilionë do të nevojiten 83,000 GPU për ta fuqizuar atë për një vit, duke kushtuar më shumë se 2 miliardë dollarë.

Megjithatë, firmat e teknologjisë kanë bashkëpunuar dhe kanë investuar në modelet e tyre gjithnjë në zgjerim të AI të supersized ndërsa kërkesa për zgjidhje ML rritet. Për shembull, Baidu me bazë në Kinë dhe Laboratori Peng Cheng lëshuan PCL-BAIDU Wenxin, me 280 miliardë parametra. PCL-BAIDU tashmë po përdoret nga burimet e lajmeve, motori i kërkimit dhe asistenti dixhital i Baidu.

Versioni i fundit i programit Go-playing, të cilin DeepMind e krijoi në dhjetor 2021, ka 280 miliardë parametra. Modelet Google Switch-Transformer-GLaM kanë respektivisht 1 trilion dhe 1.2 trilion parametra marramendës. Wu Dao 2.0 nga Akademia e AI në Pekin është edhe më masiv dhe është raportuar të ketë 1.75 trilion parametra. Ndërsa qytetet inteligjente dhe automatizimi vazhdojnë të nxisin ndërprerjet, ekspertët nuk janë të sigurt se si llogaritja e AI do të mbështesë një të ardhme të tillë.

Implikimet e modeleve të supersized AI

Implikimet më të gjera të modeleve të supersized AI mund të përfshijnë:

Rritja e investimeve dhe mundësive në zhvillimin e çipave kompjuterikë të AI që konsumojnë më pak energji.
Progresi i AI u ngadalësua nga mungesa e fuqisë kompjuterike, duke çuar në më shumë fonde për teknologjitë dhe zgjidhjet e kursimit të energjisë.
Zhvilluesit ML krijojnë modele alternative përveç transformatorëve, të cilët mund të çojnë në zbulime dhe inovacione për algoritme më efikase.
Zgjidhjet e inteligjencës artificiale që fokusohen në problemet me në qendër aplikacionin, duke rregulluar llogaritjen në përputhje me rrethanat ose duke modifikuar sipas nevojës në vend që thjesht të mbipërmasojnë.
Të dhëna më komplekse që lejojnë programet e AI të kryejnë parashikime më të mira, duke përfshirë parashikimet e motit, zbulimin e hapësirës, diagnozat mjekësore dhe tregtimin ndërkombëtar.

Pyetje për të komentuar

Nëse punoni në sektorin e AI, cili është përparimi në zhvillimin e modeleve më të mira të ML?
Cilat janë përfitimet e tjera të mundshme të modeleve me të dhëna të shumta trajnimi për të mësuar?

Shto tek lista