დიდი ზომის ai მოდელების გიგანტური გამოთვლითი სისტემები მიღწევის წერტილს აღწევს

სურათის კრედიტი:

iStock

სუპერ ზომის ხელოვნური ინტელექტის მოდელები: გიგანტური გამოთვლითი სისტემები მიაღწია გარდამტეხ წერტილს

მანქანათმცოდნეობის მათემატიკური მოდელები ყოველწლიურად უფრო დიდი და დახვეწილი ხდება, მაგრამ ექსპერტები ფიქრობენ, რომ ეს ვრცელი ალგორითმები პიკს მიაღწევს.

ავტორი:
ავტორის სახელი
Quantumrun Foresight
ივნისი 2, 2023

2012 წლიდან, ხელოვნური ინტელექტის (AI) მნიშვნელოვანი წინსვლა რეგულარულად ხდებოდა, ძირითადად გამოთვლითი სიმძლავრის გაზრდით (მოკლედ „გამოთვლა“). 2020 წელს გამოშვებულმა ერთ-ერთმა უდიდესმა მოდელმა გამოიყენა 600,000 2012-ჯერ მეტი გამოთვლა, ვიდრე 2018 წლის პირველი მოდელი. OpenAI-ის მკვლევარებმა აღნიშნეს ეს ტენდენცია XNUMX წელს და გააფრთხილეს, რომ ეს ზრდის ტემპი დიდხანს არ იქნებოდა მდგრადი.

სუპერ ზომის AI მოდელების კონტექსტი

მანქანური სწავლების (ML) ბევრი დეველოპერი იყენებს ტრანსფორმატორის მოდელებს ღრმა სწავლისთვის (DL) მათი ერთი შეხედვით უსაზღვრო პოტენციალის გამო. ამ მოდელების მაგალითებია გენერაციული წინასწარ გაწვრთნილი ტრანსფორმატორი 2 (GPT-2), GPT-3, ორმხრივი კოდირების წარმოდგენები ტრანსფორმატორებისგან (BERT) და ტურინგის ბუნებრივი ენის გენერაცია (NLG). ამ ალგორითმებს ხშირად აქვთ რეალური აპლიკაციები, როგორიცაა მანქანური თარგმანი ან დროის სერიების პროგნოზირება.

ხელოვნური ინტელექტის რეჟიმები უნდა გაფართოვდეს, რათა მოთავსდეს მეტი ტრენინგის მონაცემები და უკეთესი გახდეს პროგნოზებში. ამ მოთხოვნამ გამოიწვია უზარმაზარი მოდელების გაჩენა მილიარდობით პარამეტრით (ცვლადები, რომლებსაც ალგორითმები იყენებენ პროგნოზების გასაკეთებლად). ეს მოდელები წარმოდგენილია OpenAI-ის GPT-3-ით (და მისი ChatGPT ურთიერთქმედება დაიწყო 2022 წლის დეკემბერში), ჩინეთში დაფუძნებული PanGu-alpha, Nvidia-ს Megatron-Turing NLG და DeepMind's Gopher. 2020 წელს GPT-3 ტრენინგს დასჭირდა სუპერკომპიუტერი, რომელიც მსოფლიოში ხუთ უდიდესს შორის იყო.

თუმცა, ამ მოდელებს, როგორც წესი, ესაჭიროებათ ენერგიის ინტენსიური ტრენინგის მონაცემები. ღრმა სწავლება დამოკიდებული იყო მის უნარზე გამოიყენოს უზარმაზარი გამოთვლითი ძალა, მაგრამ ეს მალე შეიცვლება. ტრენინგი ძვირია, არსებობს შეზღუდვები ხელოვნური ინტელექტის ჩიპებისთვის და დიდი მოდელების ვარჯიში ბლოკავს პროცესორებს, რაც ართულებს მათ მართვას. რაც უფრო დიდია პარამეტრი, მით უფრო ძვირი ჯდება ამ მოდელების მომზადება. ექსპერტები თანხმდებიან, რომ დადგება მომენტი, როდესაც სუპერ ზომის ხელოვნური ინტელექტის მოდელები შეიძლება გახდეს ძალიან ძვირი და ენერგო ინტენსიური ტრენინგისთვის.

დამრღვევი გავლენა

2020 წელს, OpenAI-მ შეაფასა გამოთვლების მინიმალური რაოდენობა, რომელიც საჭიროა მრავალი მოდელის მოსამზადებლად, პარამეტრის რაოდენობისა და მონაცემთა ზომის გათვალისწინებით. ეს განტოლებები ასახავს იმას, თუ როგორ მოითხოვს ML-ს, რომ მონაცემები ბევრჯერ გაიაროს ქსელში, როგორ იზრდება თითოეული გავლის გამოთვლა, როდესაც იზრდება პარამეტრების რაოდენობა და რამდენი მონაცემია საჭირო, როდესაც იზრდება პარამეტრების რაოდენობა.

Open AI შეფასებით, თუ ვივარაუდებთ, რომ დეველოპერებს შეუძლიათ მიაღწიონ მაქსიმალურ ეფექტურობას, GPT-4 (100-ჯერ მეტი GPT-3-ზე (17.5 ტრილიონი პარამეტრი)) აშენებას დასჭირდება 7,600 გრაფიკული დამუშავების ერთეული (GPU) მინიმუმ ერთი წლის განმავლობაში და დაახლოებით ეღირება. 200 მილიონი აშშ დოლარი. 100 ტრილიონი პარამეტრიანი მოდელი დასჭირდება 83,000 GPU-ს ერთი წლის განმავლობაში, რაც 2 მილიარდ დოლარზე მეტი დაჯდება.

მიუხედავად ამისა, ტექნიკური ფირმები თანამშრომლობდნენ და ახორციელებდნენ ინვესტიციებს მათ მუდმივად გაფართოებულ სუპერ ზომის AI მოდელებში, რადგან ML გადაწყვეტილებების მოთხოვნა იზრდება. მაგალითად, ჩინურმა Baidu-მ და Peng Cheng Lab-მა გამოუშვეს PCL-BAIDU Wenxin, 280 მილიარდი პარამეტრით. PCL-BAIDU უკვე გამოიყენება Baidu-ს ახალი ამბების, საძიებო სისტემისა და ციფრული ასისტენტის მიერ.

Go-playing პროგრამის უახლესი ვერსია, რომელიც DeepMind-მა შექმნა 2021 წლის დეკემბერში, აქვს 280 მილიარდი პარამეტრი. Google Switch-Transformer-GLaM მოდელებს აქვთ გასაოცარი 1 ტრილიონი და 1.2 ტრილიონი პარამეტრი, შესაბამისად. Wu Dao 2.0 პეკინის ხელოვნური ინტელექტის აკადემიიდან კიდევ უფრო მასიურია და ცნობილია, რომ მას აქვს 1.75 ტრილიონი პარამეტრი. რამდენადაც ჭკვიანი ქალაქები და ავტომატიზაცია განაგრძობენ შეფერხებებს, ექსპერტები არ არიან დარწმუნებულნი, თუ როგორ დაუჭერს მხარს ხელოვნური ინტელექტის გამოთვლა ასეთ მომავალს.

დიდი ზომის AI მოდელების შედეგები

დიდი ზომის AI მოდელების უფრო ფართო შედეგები შეიძლება შეიცავდეს:

გაიზარდა ინვესტიციები და შესაძლებლობები AI კომპიუტერული ჩიპების შემუშავებაში, რომლებიც ნაკლებ ენერგიას მოიხმარენ.
ხელოვნური ინტელექტის პროგრესი შენელდა გამოთვლითი სიმძლავრის ნაკლებობით, რამაც გამოიწვია ენერგიის დაზოგვის ტექნოლოგიებისა და გადაწყვეტილებების მეტი დაფინანსება.
ML დეველოპერები ქმნიან ალტერნატიულ მოდელებს ტრანსფორმატორების გარდა, რამაც შეიძლება გამოიწვიოს აღმოჩენები და ინოვაციები უფრო ეფექტური ალგორითმებისთვის.
ხელოვნური ინტელექტის გადაწყვეტილებები, რომლებიც ფოკუსირებულია აპლიკაციაზე ორიენტირებულ პრობლემებზე, შესაბამისად არეგულირებს გამოთვლებს ან საჭიროებისამებრ ცვლის უბრალოდ ზედმეტობის ნაცვლად.
უფრო რთული მონაცემთა ნაკრები, რომელიც AI პროგრამებს საშუალებას აძლევს უკეთეს პროგნოზებს შეასრულონ, მათ შორის ამინდის პროგნოზები, კოსმოსის აღმოჩენა, სამედიცინო დიაგნოზები და საერთაშორისო ვაჭრობა.