Sistem pengkomputeran gergasi model ai bersaiz besar sedang mencapai titik kritis

KREDIT GAMBAR:

iStock

Model AI bersaiz besar: Sistem pengkomputeran gergasi mencapai titik kritikal

Model matematik pembelajaran mesin semakin besar dan lebih canggih setiap tahun, tetapi pakar berpendapat algoritma luas ini akan mencapai kemuncaknya.

Pengarang
Nama pengarang
Quantumrun Foresight
Jun 2, 2023

Sejak tahun 2012, kemajuan ketara dalam kecerdasan buatan (AI) telah berlaku secara kerap, terutamanya didorong oleh peningkatan kuasa pengkomputeran (“pengiraan” secara ringkasnya). Salah satu model terbesar, yang dilancarkan pada 2020, menggunakan 600,000 kali lebih banyak pengiraan daripada model pertama dari 2012. Penyelidik di OpenAI menyatakan trend ini pada 2018 dan memberi amaran bahawa kadar pertumbuhan ini tidak akan mampan untuk jangka masa yang lama.

Konteks model AI bersaiz besar

Banyak pembangun pembelajaran mesin (ML) menggunakan model transformer untuk pembelajaran mendalam (DL) kerana potensi mereka yang tidak terhad. Contoh model ini termasuk Generatif Pra-latihan Transformer 2 (GPT-2), GPT-3, Perwakilan Pengekod Dwi Arah daripada Transformers (BERT) dan Turing Natural Language Generation (NLG). Algoritma ini selalunya mempunyai aplikasi dunia nyata seperti terjemahan mesin atau ramalan siri masa.

Mod kecerdasan buatan perlu berkembang untuk menampung lebih banyak data latihan dan menjadi lebih baik dalam ramalan. Keperluan ini telah membawa kepada peningkatan model bersaiz besar dengan berbilion parameter (pembolehubah yang digunakan oleh algoritma untuk membuat ramalan). Model ini diwakili oleh GPT-3 OpenAI (dan interaksi ChatGPTnya yang dilancarkan pada Disember 2022), PanGu-alpha yang berpangkalan di China, NLG Megatron-Turing Nvidia dan DeepMind's Gopher. Pada tahun 2020, latihan GPT-3 memerlukan superkomputer yang merupakan antara lima terbesar di dunia.

Walau bagaimanapun, model ini cenderung memerlukan sejumlah besar data latihan intensif tenaga. Pembelajaran mendalam bergantung pada keupayaannya untuk menggunakan kuasa pengiraan yang besar, tetapi ini akan berubah tidak lama lagi. Latihan adalah mahal, terdapat had untuk cip AI, dan latihan model besar menyumbat pemproses, menjadikannya sukar untuk menguruskan semuanya. Lebih besar parameter, lebih mahal untuk melatih model ini. Pakar bersetuju bahawa akan tiba masanya model AI bersaiz besar mungkin menjadi terlalu mahal dan memerlukan tenaga untuk dilatih.

Kesan yang mengganggu

Pada tahun 2020, OpenAI menganggarkan jumlah minimum pengiraan yang diperlukan untuk melatih pelbagai model, dengan mengambil kira bilangan parameter dan saiz set data. Persamaan ini mengambil kira cara ML memerlukan data itu untuk melalui rangkaian berkali-kali, cara pengiraan untuk setiap pas meningkat apabila bilangan parameter meningkat dan berapa banyak data yang diperlukan apabila bilangan parameter bertambah.

Menurut anggaran Open AI, dengan mengandaikan bahawa pembangun boleh mencapai kecekapan maksimum, membina GPT-4 (100 kali lebih besar daripada GPT-3 (17.5 trilion parameter)) memerlukan 7,600 unit pemprosesan grafik (GPU) yang berjalan selama sekurang-kurangnya satu tahun dan menelan belanja lebih kurang. USD $200 juta. Model parameter 100 trilion memerlukan 83,000 GPU untuk menjanakannya selama setahun, dengan kos lebih daripada USD $2 bilion.

Namun begitu, firma teknologi telah bekerjasama dan mencurahkan pelaburan dalam model AI bersaiz besar yang sentiasa berkembang apabila permintaan untuk penyelesaian ML semakin meningkat. Sebagai contoh, Baidu dan Lab Peng Cheng yang berpangkalan di China mengeluarkan PCL-BAIDU Wenxin, dengan 280 bilion parameter. PCL-BAIDU sudah digunakan oleh suapan berita, enjin carian dan pembantu digital Baidu.

Versi program Go-playing terbaharu, yang dicipta DeepMind pada Disember 2021, mempunyai 280 bilion parameter. Model Google Switch-Transformer-GLaM masing-masing mempunyai 1 trilion dan 1.2 trilion parameter yang mengejutkan. Wu Dao 2.0 dari Beijing Academy of AI adalah lebih besar dan telah dilaporkan mempunyai 1.75 trilion parameter. Memandangkan bandar pintar dan automasi terus menolak gangguan, pakar tidak pasti bagaimana pengiraan AI akan menyokong masa depan sedemikian.

Implikasi model AI bersaiz besar

Implikasi yang lebih luas daripada model AI bersaiz besar mungkin termasuk:

Peningkatan pelaburan dan peluang dalam membangunkan cip komputer AI yang menggunakan lebih sedikit tenaga.
Kemajuan AI menjadi perlahan oleh kekurangan kuasa pengkomputeran, membawa kepada lebih banyak pembiayaan untuk teknologi dan penyelesaian penjimatan tenaga.
Pembangun ML mencipta model alternatif selain daripada transformer, yang boleh membawa kepada penemuan dan inovasi untuk algoritma yang lebih cekap.
Penyelesaian AI yang memfokuskan pada masalah tertumpu aplikasi, melaraskan pengiraan dengan sewajarnya atau mengubah suai mengikut keperluan dan bukannya hanya menokok saiz.
Set data yang lebih kompleks membolehkan program AI melakukan ramalan yang lebih baik, termasuk ramalan cuaca, penemuan angkasa lepas, diagnosis perubatan dan perdagangan antarabangsa.

Soalan untuk diulas

Jika anda bekerja dalam sektor AI, apakah kemajuan dalam membangunkan model ML yang lebih baik?
Apakah faedah berpotensi lain model dengan data latihan yang luas untuk dipelajari?

Tambah ke senarai