Проблемні навчальні дані: коли ШІ навчають упереджених даних

КРЕДИТ ЗОБРАЖЕННЯ:
Кредит зображення
iStock

Проблемні навчальні дані: коли ШІ навчають упереджених даних

Проблемні навчальні дані: коли ШІ навчають упереджених даних

Текст підзаголовка
Системи штучного інтелекту іноді вводять із суб’єктивними даними, які можуть впливати на те, як вони діють і приймають рішення.
    • Автор:
    • ім'я автора
      Quantumrun Foresight
    • Жовтень 14, 2022

    Короткий огляд

    Ми те, чого ми вчимося і засвоюємо; це положення також стосується штучного інтелекту (ШІ). Моделі машинного навчання (ML), наповнені неповними, упередженими та неетичними даними, зрештою призведуть до проблемних рішень і пропозицій. Ці потужні алгоритми можуть потім вплинути на мораль і сприйняття користувачів, якщо дослідники не будуть обережні.

    Проблемний контекст навчальних даних

    Починаючи з 2010-х років дослідницькі групи ретельно перевіряються на предмет використання навчальних наборів даних із неприйнятним вмістом або зібраних неетично. Наприклад, у 2016 році база даних Microsoft MS-Celeb-1M включала 10 мільйонів зображень 100,000 XNUMX різних знаменитостей. Однак під час подальшої перевірки кореспонденти виявили, що багато фотографій були звичайними людьми, взятими з різних веб-сайтів без згоди або відома власника.

    Незважаючи на це усвідомлення, набір даних продовжував використовуватися великими компаніями, такими як Facebook і SenseTime, китайська компанія з розпізнавання облич, пов’язана з державною поліцією. Подібним чином набір даних із зображеннями людей, які гуляють кампусом університету Дьюка (DukeMTMC), також не отримав згоди. Згодом обидва набори даних було видалено. 

    Щоб підкреслити згубний вплив проблемних навчальних даних, дослідники з Массачусетського технологічного інституту (MIT) створили штучний інтелект під назвою Norman, який вони навчили створювати субтитри до зображень із субредіту, що висвітлює графічне насильство. Потім команда поставила Нормана на нейронну мережу, навчену з використанням традиційних даних. Дослідники забезпечили обидві системи чорнильними плямами Роршаха та попросили штучний інтелект описати те, що вони побачили. Результати були приголомшливими: там, де стандартна нейронна мережа побачила «чорно-білу фотографію бейсбольної рукавички», Норман спостерігав «людину, убиту з автомата серед білого дня». Експеримент продемонстрував, що штучний інтелект не є автоматично упередженим, але ці методи введення даних і мотиви їх творців можуть значно вплинути на поведінку штучного інтелекту.

    Руйнівний вплив

    У 2021 році дослідницька організація Allen Institute for AI створила Ask Delphi, програмне забезпечення для машинного навчання, яке алгоритмічно генерує відповіді на будь-яке етичне запитання. Дослідники, які стоять за проектом, заявили, що ШІ поступово стає потужнішим і звичнішим, тому вченим потрібно навчати ці системи етики машинного навчання. Модель Unicorn ML є основою Delphi. Його було сформульовано для проведення міркувань «здорового глузду», наприклад для вибору найбільш імовірного закінчення текстового рядка. 

    Крім того, дослідники використовували «Банк норм здорового розуму». Цей банк складається з 1.7 мільйона прикладів етичних оцінок людей із таких місць, як Reddit. У результаті результат Delphi був неоднозначним. Delphi відповів на деякі запитання розумно (наприклад, рівність між чоловіками та жінками), тоді як щодо деяких тем Delphi був відверто образливим (наприклад, геноцид прийнятний, якщо він робив людей щасливими).

    Проте штучний інтелект Delphi вчиться на своєму досвіді та, здається, оновлює свої відповіді на основі відгуків. Деякі експерти стурбовані публічним і відкритим використанням дослідження, вважаючи, що модель знаходиться в розробці та схильна до непостійних відповідей. Коли Ask Delphi дебютував, Мар Хікс, професор історії Іллінойського технічного факультету, який спеціалізується на гендері, праці та історії обчислювальної техніки, сказав, що було недбалістю з боку дослідників запрошувати людей використовувати його, вважаючи, що Delphi одразу надав надзвичайно неетичні відповіді та деякі повна нісенітниця. 

    У 2023, Решта світу провели дослідження зміщення в генераторах зображень ШІ. Використовуючи Midjourney, дослідники виявили, що створені зображення підтверджують існуючі стереотипи. Крім того, коли OpenAI застосував фільтри до навчальних даних для моделі генерації зображень DALL-E 2, він ненавмисно посилив упередження, пов’язані зі статтю.

    Наслідки проблемних навчальних даних

    Більш широкі наслідки проблемних навчальних даних можуть включати: 

    • Посилені упередження в дослідницьких проектах, послугах і розробці програм. Проблемні навчальні дані викликають особливе занепокоєння, якщо вони використовуються в правоохоронних і банківських установах (наприклад, негативно спрямовані проти груп меншин).
    • Збільшення інвестицій і розвиток у зростання та асортимент навчальних даних. 
    • Більше урядів посилюють правила, щоб обмежити те, як корпорації розробляють, продають і використовують навчальні дані для різних комерційних ініціатив.
    • Більше компаній створюють відділи етики, щоб переконатися, що проекти, які базуються на системах ШІ, дотримуються етичних принципів.
    • Посилений контроль за використанням штучного інтелекту в охороні здоров’я, що веде до суворішого управління даними, гарантує конфіденційність пацієнтів і етичне застосування ШІ.
    • Розширення співпраці державного та приватного секторів для підвищення грамотності в галузі штучного інтелекту, озброєння робочої сили навичками для майбутнього, де домінує штучний інтелект.
    • Зростання попиту на інструменти прозорості штучного інтелекту спонукає компанії надавати пріоритет поясненню в системах штучного інтелекту для розуміння та довіри споживачів.

    Питання для розгляду

    • Як організації можуть уникнути використання проблемних навчальних даних?
    • Які ще потенційні наслідки неетичних навчальних даних?