سیستم های محاسباتی غول پیکر مدل های هوش مصنوعی در حال رسیدن به نقطه اوج

اعتبار تصویر:

iStock

مدل های هوش مصنوعی بزرگ: سیستم های محاسباتی غول پیکر در حال رسیدن به نقطه اوج هستند

مدل‌های ریاضی یادگیری ماشینی سالانه بزرگ‌تر و پیچیده‌تر می‌شوند، اما کارشناسان فکر می‌کنند این الگوریتم‌های گسترده‌تر به اوج خود می‌رسند.

نویسنده:
نام نویسنده
آینده نگاری کوانتوم ران
ژوئن 2، 2023

از سال 2012، پیشرفت های قابل توجهی در هوش مصنوعی (AI) به طور منظم اتفاق افتاده است که عمدتاً ناشی از افزایش قدرت محاسباتی (به اختصار "محاسبه") بوده است. یکی از بزرگترین مدل ها که در سال 2020 راه اندازی شد، 600,000 برابر محاسبات بیشتری نسبت به مدل اول در سال 2012 استفاده کرد. محققان OpenAI در سال 2018 به این روند اشاره کردند و هشدار دادند که این نرخ رشد برای مدت طولانی پایدار نخواهد بود.

زمینه مدل‌های هوش مصنوعی بزرگ

بسیاری از توسعه دهندگان یادگیری ماشین (ML) از مدل های ترانسفورماتور برای یادگیری عمیق (DL) به دلیل پتانسیل به ظاهر نامحدودشان استفاده می کنند. نمونه هایی از این مدل ها عبارتند از Generative Pre-trained Transformer 2 (GPT-2)، GPT-3، Representations Encoder Bidirectional from Transformers (BERT) و Turing Natural Language Generation (NLG). این الگوریتم ها اغلب دارای کاربردهای واقعی مانند ترجمه ماشینی یا پیش بینی سری های زمانی هستند.

حالت های هوش مصنوعی باید گسترش یابد تا داده های آموزشی بیشتری را در خود جای دهد و در پیش بینی ها بهتر شود. این نیاز به ظهور مدل های بزرگ با میلیاردها پارامتر (متغیرهایی که توسط الگوریتم ها برای پیش بینی استفاده می شود) منجر شده است. این مدل‌ها با GPT-3 OpenAI (و تعامل ChatGPT آن در دسامبر 2022 راه‌اندازی شد)، PanGu-alpha مبتنی بر چین، Megatron-Turing NLG انویدیا و Gopher DeepMind ارائه می‌شوند. در سال 2020، آموزش GPT-3 به ابررایانه ای نیاز داشت که در بین پنج ابر رایانه بزرگ جهان قرار داشت.

با این حال، این مدل‌ها به مقادیر عظیمی از داده‌های آموزشی پر انرژی نیاز دارند. یادگیری عمیق به توانایی آن در استفاده از قدرت محاسباتی عظیم بستگی دارد، اما این به زودی تغییر خواهد کرد. آموزش گران است، محدودیت هایی برای تراشه های هوش مصنوعی وجود دارد، و آموزش مدل های بزرگ پردازنده ها را مسدود می کند و مدیریت همه آنها را دشوار می کند. هر چه پارامتر بزرگتر باشد، آموزش این مدل ها هزینه بیشتری دارد. کارشناسان موافقند که زمانی فرا می رسد که مدل های هوش مصنوعی بزرگ ممکن است برای آموزش بسیار گران و انرژی بر شوند.

تاثیر مخرب

در سال 2020، OpenAI حداقل مقدار محاسبات مورد نیاز برای آموزش مدل‌های متعدد را با در نظر گرفتن تعداد پارامترها و اندازه داده‌ها تخمین زد. این معادلات توضیح می‌دهند که چگونه ML نیاز دارد که داده‌ها چندین بار از شبکه عبور کنند، چگونه محاسبه برای هر عبور با افزایش تعداد پارامترها افزایش می‌یابد، و با افزایش تعداد پارامترها چه مقدار داده مورد نیاز است.

طبق تخمین‌های Open AI، با فرض اینکه توسعه‌دهندگان می‌توانند به حداکثر بازدهی دست یابند، ساخت GPT-4 (100 برابر بزرگ‌تر از GPT-3 (17.5 تریلیون پارامتر)) به 7,600 واحد پردازش گرافیکی (GPU) نیاز دارد که حداقل برای یک سال کار کنند و تقریباً هزینه دارد. 200 میلیون دلار یک مدل 100 تریلیون پارامتری برای یک سال به 83,000 GPU نیاز دارد که بیش از 2 میلیارد دلار هزینه دارد.

با این وجود، شرکت‌های فناوری با افزایش تقاضا برای راه‌حل‌های ML، در مدل‌های هوش مصنوعی بزرگ و در حال گسترش خود با یکدیگر همکاری کرده و سرمایه‌گذاری کرده‌اند. به عنوان مثال، بایدو مستقر در چین و آزمایشگاه پنگ چنگ PCL-BAIDU Wenxin را با 280 میلیارد پارامتر منتشر کردند. PCL-BAIDU در حال حاضر توسط فیدهای خبری، موتور جستجو و دستیار دیجیتال بایدو استفاده می شود.

آخرین نسخه برنامه Go-playing که DeepMind در دسامبر 2021 ایجاد کرد، دارای 280 میلیارد پارامتر است. مدل های Google Switch-Transformer-GLaM به ترتیب دارای پارامترهای خیره کننده 1 تریلیون و 1.2 تریلیون هستند. Wu Dao 2.0 از آکادمی هوش مصنوعی پکن حتی عظیم تر است و گزارش شده است که دارای 1.75 تریلیون پارامتر است. از آنجایی که شهرهای هوشمند و اتوماسیون همچنان به ایجاد اختلال ادامه می دهند، کارشناسان مطمئن نیستند که محاسبات هوش مصنوعی چگونه از چنین آینده ای پشتیبانی می کند.

مفاهیم مدل های هوش مصنوعی بزرگ

پیامدهای گسترده تر مدل های هوش مصنوعی بزرگ ممکن است شامل موارد زیر باشد:

افزایش سرمایه گذاری ها و فرصت ها در توسعه تراشه های کامپیوتری هوش مصنوعی که انرژی کمتری مصرف می کنند.
پیشرفت هوش مصنوعی به دلیل کمبود قدرت محاسباتی کند شد و منجر به بودجه بیشتر برای فناوری ها و راه حل های صرفه جویی در انرژی شد.
توسعه دهندگان ML به غیر از ترانسفورماتور، مدل های جایگزین ایجاد می کنند، که می تواند منجر به اکتشافات و نوآوری برای الگوریتم های کارآمدتر شود.
راه حل های هوش مصنوعی با تمرکز بر مشکلات برنامه محور، تنظیم محاسبات بر اساس آن یا اصلاح در صورت نیاز به جای صرفا بزرگ کردن.
مجموعه داده های پیچیده تر به برنامه های هوش مصنوعی اجازه می دهد تا پیش بینی های بهتری از جمله پیش بینی آب و هوا، کشف فضا، تشخیص های پزشکی و تجارت بین المللی انجام دهند.

سوالاتی برای اظهار نظر

اگر در بخش هوش مصنوعی کار می‌کنید، چه پیشرفتی در توسعه مدل‌های بهتر ML وجود دارد؟
مزایای بالقوه دیگر مدل هایی با داده های آموزشی گسترده برای یادگیری چیست؟

افزودن به لیست