נתוני אימון בעייתיים: כאשר AI נלמד נתונים מוטים

אשראי תמונה:
אשראי תמונה
iStock

נתוני אימון בעייתיים: כאשר AI נלמד נתונים מוטים

נתוני אימון בעייתיים: כאשר AI נלמד נתונים מוטים

טקסט כותרות משנה
מערכות בינה מלאכותית מוצגות לעתים עם נתונים סובייקטיביים שיכולים להשפיע על אופן פעולתה ומקבלת החלטות.
    • מְחַבֵּר:
    • שם היוצר
      Quantumrun Foresight
    • אוקטובר 14, 2022

    סיכום תובנה

    אנחנו מה שאנחנו לומדים ומפנים; משפט זה חל גם על בינה מלאכותית (AI). מודלים של למידת מכונה (ML) המוזנים בנתונים לא שלמים, מוטים ולא אתיים יקבלו בסופו של דבר החלטות והצעות בעייתיות. אלגוריתמים רבי עוצמה אלה עשויים להשפיע על המוסר והתפיסות של המשתמשים אם החוקרים לא נזהרים.

    הקשר נתוני אימון בעייתי

    מאז שנות ה-2010, צוותי מחקר נבדקו בקפידה על שימוש במערכי נתונים עם תוכן לא מתאים או שנאספו בצורה לא אתית. לדוגמה, בשנת 2016, מסד הנתונים MS-Celeb-1M של מיקרוסופט כלל 10 מיליון תמונות של 100,000 סלבריטאים שונים. עם זאת, לאחר בדיקה נוספת, גילו כתבים שתמונות רבות הן של אנשים רגילים שנשלפו מאתרים שונים ללא הסכמת הבעלים או ידיעתו.

    למרות ההבנה הזו, מערך הנתונים המשיך להיות בשימוש על ידי חברות גדולות כמו פייסבוק ו-SenseTime, חברה סינית לזיהוי פנים עם קישורים למשטרת המדינה. באופן דומה, מערך נתונים המכיל תמונות של אנשים שהולכים בקמפוס של אוניברסיטת דיוק (DukeMTMC) גם לא אסף הסכמה. בסופו של דבר, שני מערכי הנתונים הוסרו. 

    כדי להדגיש את ההשפעות המזיקות של נתוני הכשרה בעייתיים, חוקרים מהמכון הטכנולוגי של מסצ'וסטס (MIT) יצרו AI בשם Norman שהם לימדו לבצע כיתוב תמונה מתוך subreddit שהדגיש אלימות גרפית. לאחר מכן, הצוות הציב את נורמן מול רשת עצבית שאומנה באמצעות נתונים קונבנציונליים. החוקרים סיפקו לשתי המערכות כתמי דיו של רורשאך וביקשו מה-AI לתאר את מה שהם ראו. התוצאות היו מדהימות: היכן שרשת העצבים הסטנדרטית ראתה "תמונה בשחור-לבן של כפפת בייסבול", הבחין נורמן ב"אדם שנרצח על ידי מקלע באור יום". הניסוי הוכיח שבינה מלאכותית אינה מוטה אוטומטית, אך שיטות קלט הנתונים הללו והמניעים של יוצריהן יכולים להשפיע באופן משמעותי על התנהגות הבינה המלאכותית.

    השפעה משבשת

    בשנת 2021, ארגון המחקר Allen Institute for AI יצר את Ask Delphi, תוכנת ML המייצרת באופן אלגוריתמי תשובות לתשובות לכל שאלה אתית. החוקרים שמאחורי הפרויקט ציינו שבינה מלאכותית הופכת בהדרגה לחזקה ומוכרת יותר, ולכן מדענים צריכים ללמד את מערכות ה-ML הללו. מודל Unicorn ML הוא הבסיס של דלפי. הוא נוסח כדי לבצע חשיבה "שכל ישר", כגון בחירת הסוף הסביר ביותר למחרוזת טקסט. 

    יתר על כן, החוקרים השתמשו ב-'Commonsens Norm Bank'. הבנק הזה מורכב מ-1.7 מיליון דוגמאות של הערכות אתיות של אנשים ממקומות כמו Reddit. כתוצאה מכך, הפלט של דלפי היה מעורב. דלפי ענתה על כמה שאלות בצורה סבירה (למשל, שוויון בין גברים לנשים), בעוד שבחלק מהנושאים, דלפי הייתה פוגענית ממש (למשל, רצח עם מקובל כל עוד הוא גרם לאנשים להיות מאושרים).

    עם זאת, ה- Delphi AI לומד מהניסיון שלו ונראה שהוא מעדכן את תשובותיו על סמך משוב. חלק מהמומחים מוטרדים מהשימוש הציבורי והפתוח של המחקר, בהתחשב בעובדה שהמודל נמצא בתהליך ונוטה לתשובות לא יצירות. כששאל דלפי הופיע לראשונה, מאר היקס, פרופסור להיסטוריה באילינוי טק המתמחה במגדר, עבודה והיסטוריה של המחשוב, אמר שזו התרשלות מצד חוקרים להזמין אנשים להשתמש בו, בהתחשב בכך שדלפי סיפקה מיד תשובות לא אתיות ביותר וכמה שטויות מוחלטות. 

    ב2023, שאר העולם ביצע מחקר על הטיה במחוללי תמונות בינה מלאכותית. באמצעות Midjourney, חוקרים גילו שהתמונות שנוצרו מאשרות סטריאוטיפים קיימים. בנוסף, כאשר OpenAI החילה מסננים על נתוני האימון עבור מודל יצירת התמונות שלה DALL-E 2, היא העצימה בטעות הטיות הקשורות למגדר.

    השלכות של נתוני אימון בעייתיים

    השלכות רחבות יותר של נתוני הכשרה בעייתיים עשויות לכלול: 

    • הטיות מחוזקות בפרויקטי מחקר, שירותים ופיתוח תוכניות. נתוני הכשרה בעייתיים מדאיגים במיוחד אם משתמשים בהם במוסדות אכיפת חוק ובנקאות (למשל, מיקוד לרעה בקבוצות מיעוט).
    • הגברת ההשקעה והפיתוח בצמיחה ובמגוון נתוני ההדרכה. 
    • ממשלות נוספות מגבירות את התקנות כדי להגביל את האופן שבו תאגידים מפתחים, מוכרים ומשתמשים בנתוני הדרכה עבור יוזמות מסחריות שונות.
    • עסקים נוספים מקימים מחלקות אתיקה כדי להבטיח שפרויקטים המופעלים על ידי מערכות בינה מלאכותית פועלות לפי הנחיות אתיות.
    • בדיקה משופרת על השימוש בבינה מלאכותית בתחום הבריאות המובילה לניהול נתונים מחמיר, הבטחת פרטיות המטופל ויישום בינה מלאכותית אתית.
    • הגברת שיתוף הפעולה במגזר הציבורי והפרטי כדי לטפח אוריינות בינה מלאכותית, לצייד את כוח העבודה במיומנויות לעתיד הנשלט על ידי בינה מלאכותית.
    • עלייה בביקוש לכלי שקיפות בינה מלאכותית, מה שמוביל חברות לתעדף יכולת הסבר במערכות בינה מלאכותית להבנת צרכנים ואמון.

    שאלות שכדאי לקחת בחשבון

    • כיצד עשויים ארגונים להימנע משימוש בנתוני הדרכה בעייתיים?
    • מהן השלכות פוטנציאליות נוספות של נתוני הכשרה לא אתיים?