דגמי בינה מלאכותית גדולה: מערכות מחשוב ענקיות מגיעות לנקודת המפנה

אשראי תמונה:
אשראי תמונה
iStock

דגמי בינה מלאכותית גדולה: מערכות מחשוב ענקיות מגיעות לנקודת המפנה

דגמי בינה מלאכותית גדולה: מערכות מחשוב ענקיות מגיעות לנקודת המפנה

טקסט כותרות משנה
מודלים מתמטיים של למידת מכונה נעשים גדולים ומתוחכמים יותר מדי שנה, אך מומחים חושבים שהאלגוריתמים הרחבים הללו עומדים להגיע לשיא.
    • מְחַבֵּר:
    • שם היוצר
      Quantumrun Foresight
    • יוני 2, 2023

    מאז 2012, התקדמות משמעותית בתחום הבינה המלאכותית (AI) התרחשה באופן קבוע, בעיקר מונעת על ידי הגדלת כוח המחשוב ("מחשוב" בקיצור). אחד הדגמים הגדולים ביותר, שהושק בשנת 2020, השתמש פי 600,000 יותר מחשוב מאשר המודל הראשון מ-2012. חוקרים ב-OpenAI ציינו את המגמה הזו ב-2018 והזהירו שקצב הצמיחה הזה לא יהיה בר-קיימא לאורך זמן.

    הקשר של מודלים בינה מלאכותית גדולה

    מפתחי למידת מכונה רבים (ML) משתמשים במודלים של שנאים ללמידה עמוקה (DL) בגלל הפוטנציאל הבלתי מוגבל לכאורה שלהם. דוגמאות למודלים אלה כוללות טרנספורמטור 2 (GPT-2), GPT-3, ייצוגי קודן דו-כיווני של רובוטריקים (BERT) ו-Turing Natural Language Generation (NLG). לאלגוריתמים אלה יש לרוב יישומים בעולם האמיתי כגון תרגום מכונה או חיזוי סדרות זמן. 

    מצבי בינה מלאכותית צריכים להתרחב כדי להכיל יותר נתוני אימון ולהיות טובים יותר בתחזיות. דרישה זו הובילה לעלייתם של מודלים גדולים עם מיליארדי פרמטרים (משתנים המשמשים אלגוריתמים לביצוע תחזיות). דגמים אלה מיוצגים על ידי ה-GPT-3 של OpenAI (והאינטראקציה של ChatGPT שהושקה בדצמבר 2022), PanGu-alpha מסין, Megatron-Turing NLG של Nvidia ו-Gopher של DeepMind. בשנת 2020, אימון GPT-3 דרש מחשב-על שהיה בין חמשת הגדולים בעולם. 

    עם זאת, מודלים אלה נוטים לדרוש כמויות אדירות של נתוני אימון עתירי אנרגיה. למידה עמוקה הייתה תלויה ביכולת שלה להשתמש בכוח מחשוב עצום, אבל זה ישתנה בקרוב. ההכשרה יקרה, יש גבולות לשבבי בינה מלאכותית, ואימון דגמים גדולים סותם את המעבדים, מה שמקשה על ניהול כולם. ככל שהפרמטר גדול יותר, כך יקר יותר להכשיר את הדגמים הללו. מומחים מסכימים שיבוא שלב שבו דגמי בינה מלאכותית בגדלים גדולים עשויים להפוך ליקרים ועתירי אנרגיה מכדי לאמן. 

    השפעה משבשת

    בשנת 2020, OpenAI העריכה את כמות החישוב המינימלית הנדרשת לאימון מודלים רבים, תוך התחשבות במספר הפרמטרים וגודל הנתונים. משוואות אלו מסבירות כיצד ML דורש שהנתונים יעברו דרך הרשת פעמים רבות, כיצד החישוב עבור כל מעבר עולה ככל שמספר הפרמטרים גדל וכמה נתונים נדרשים ככל שמספר הפרמטרים גדל.

    על פי הערכות Open AI, בהנחה שמפתחים יכולים להשיג יעילות מקסימלית, בניית GPT-4 (פי 100 גדול מ-GPT-3 (17.5 טריליון פרמטרים)) תדרוש 7,600 יחידות עיבוד גרפיות (GPUs) הפועלות למשך שנה אחת לפחות ועלותה בערך 200 מיליון דולר. מודל של 100 טריליון פרמטרים יזדקק ל-83,000 GPUs כדי להפעיל אותו במשך שנה, בעלות של יותר מ-2 מיליארד דולר.

    עם זאת, חברות טכנולוגיה שיתפו פעולה ויוצקו השקעות בדגמי הבינה המלאכותית שלהן המתרחבים כל הזמן, ככל שהביקוש לפתרונות ML גדל. לדוגמה, Baidu שבסיסה בסין ומעבדת Peng Cheng שיחררו את PCL-BAIDU Wenxin, עם 280 מיליארד פרמטרים. PCL-BAIDU כבר נמצא בשימוש על ידי עדכוני החדשות, מנוע החיפוש והעוזר הדיגיטלי של Baidu. 

    לגרסה האחרונה של תוכנית Go-playing, ש-DeepMind יצרה בדצמבר 2021, יש 280 מיליארד פרמטרים. לדגמי Google Switch-Transformer-GLaM יש טריליון מדהימים ו-1 טריליון פרמטרים, בהתאמה. Wu Dao 1.2 מהאקדמיה לבינה מלאכותית של בייג'ינג הוא אפילו יותר מסיבי ודווח שיש לו 2.0 טריליון פרמטרים. בעוד ערים חכמות ואוטומציה ממשיכות לדחוף שיבושים, מומחים אינם בטוחים כיצד מחשוב AI יתמוך בעתיד כזה. 

    ההשלכות של דגמי AI בגדלים גדולים

    השלכות רחבות יותר של דגמי בינה מלאכותית גדולה עשויות לכלול: 

    • הגדלת השקעות והזדמנויות בפיתוח שבבי מחשב בינה מלאכותית שצורכים פחות אנרגיה. 
    • התקדמות הבינה המלאכותית האטה בגלל היעדר כוח מחשוב, מה שהוביל ליותר מימון לטכנולוגיות ופתרונות חוסכי אנרגיה.
    • מפתחי ML יוצרים מודלים חלופיים מלבד שנאים, שיכולים להוביל לגילויים וחדשנות לאלגוריתמים יעילים יותר.
    • פתרונות בינה מלאכותית המתמקדים בבעיות ממוקדות ביישום, התאמת המחשוב בהתאם או שינוי לפי הצורך במקום רק להגדיל את הגודל.
    • מערכי נתונים מורכבים יותר המאפשרים לתוכניות AI לבצע תחזיות טובות יותר, כולל תחזיות מזג אוויר, גילוי חלל, אבחנות רפואיות וסחר בינלאומי.

    שאלות להגיב עליהן

    • אם אתה עובד במגזר AI, מהי התקדמות מסוימת בפיתוח מודלים טובים יותר של ML?
    • מהם היתרונות הפוטנציאליים האחרים של מודלים עם נתוני הכשרה נרחבים שאפשר ללמוד מהם?

    הפניות לתובנות

    הקישורים הפופולריים והמוסדיים הבאים קיבלו התייחסות לתובנה זו: