Проблемные обучающие данные: когда ИИ обучают предвзятым данным

ИЗОБРАЖЕНИЕ КРЕДИТ:
Кредит изображения
Istock

Проблемные обучающие данные: когда ИИ обучают предвзятым данным

Проблемные обучающие данные: когда ИИ обучают предвзятым данным

Текст подзаголовка
Системы искусственного интеллекта иногда вводятся с субъективными данными, которые могут повлиять на то, как он действует и принимает решения.
    • Автор:
    • Имя автора
      Квантумран Форсайт
    • 14 октября 2022

    Сводка статистики

    Мы то, что мы изучаем и усваиваем; это изречение также относится к искусственному интеллекту (ИИ). Модели машинного обучения (ML), наполненные неполными, предвзятыми и неэтичными данными, в конечном итоге будут принимать проблемные решения и предложения. Эти мощные алгоритмы могут затем повлиять на мораль и восприятие пользователей, если исследователи не будут осторожны.

    Проблемный контекст обучающих данных

    С 2010-х годов исследовательские группы подвергались тщательной проверке на предмет использования наборов обучающих данных с неподходящим содержанием или собранных неэтично. Например, в 2016 году база данных Microsoft MS-Celeb-1M включала 10 миллионов изображений 100,000 XNUMX различных знаменитостей. Однако при дальнейшем рассмотрении корреспонденты обнаружили, что многие фотографии обычных людей были взяты с различных веб-сайтов без согласия или ведома владельца.

    Несмотря на это, набор данных продолжали использовать крупные компании, такие как Facebook и SenseTime, китайская компания по распознаванию лиц, имеющая связи с полицией штата. Аналогично, набор данных, содержащий фотографии людей, прогуливающихся по кампусу Университета Дьюка (DukeMTMC), также не получил согласия. В конце концов оба набора данных были удалены. 

    Чтобы подчеркнуть разрушительное воздействие проблемных обучающих данных, исследователи из Массачусетского технологического института (MIT) создали ИИ по имени Норман, которого они научили выполнять субтитры к изображениям из сабреддита, выделяющего сцены насилия. Затем команда поместила Нормана в нейронную сеть, обученную с использованием обычных данных. Исследователи снабдили обе системы чернильными пятнами Роршаха и попросили ИИ описать то, что они видели. Результаты были ошеломляющими: там, где стандартная нейросеть увидела «черно-белую фотографию бейсбольной перчатки», Норман увидел «человека, убитого из пулемета средь бела дня». Эксперимент показал, что ИИ не предвзят автоматически, но эти методы ввода данных и мотивы их создателей могут существенно повлиять на поведение ИИ.

    Разрушительное воздействие

    В 2021 году исследовательская организация Allen Institute for AI создала Ask Delphi, программное обеспечение машинного обучения, которое алгоритмически генерирует ответы на любые этические вопросы. Исследователи, стоящие за проектом, заявили, что ИИ постепенно становится все более мощным и привычным, поэтому ученым необходимо обучать этике систем ML. Модель Unicorn ML является основой Delphi. Он был сформулирован для проведения рассуждений «здравого смысла», таких как выбор наиболее вероятного окончания текстовой строки. 

    Кроме того, исследователи использовали «Банк норм здравого смысла». Этот банк состоит из 1.7 миллиона примеров этических оценок людей из таких мест, как Reddit. В результате результаты Delphi оказались неоднозначными. На некоторые вопросы Дельфи ответил разумно (например, о равенстве между мужчинами и женщинами), тогда как по некоторым темам Дельфи был откровенно оскорбительным (например, геноцид приемлем, если он делает людей счастливыми).

    Однако ИИ Delphi учится на своем опыте и, похоже, обновляет свои ответы на основе обратной связи. Некоторые эксперты обеспокоены публичным и открытым использованием результатов исследования, поскольку считают, что модель находится в стадии разработки и склонна давать ошибочные ответы. Когда дебютировал Ask Delphi, Мар Хикс, профессор истории в Технологическом институте штата Иллинойс, специализирующийся на гендере, труде и истории вычислений, сказала, что со стороны исследователей было небрежно приглашать людей использовать его, учитывая, что Delphi сразу же предоставил крайне неэтичные ответы и некоторые полная ерунда. 

    В 2023 Остальной мир провел исследование предвзятости в генераторах изображений ИИ. Используя Midjourney, исследователи обнаружили, что сгенерированные изображения подтверждают существующие стереотипы. Кроме того, когда OpenAI применила фильтры к обучающим данным для своей модели генерации изображений DALL-E 2, это непреднамеренно усилило предвзятость, связанную с полом.

    Последствия проблемных обучающих данных

    Более широкие последствия проблемных обучающих данных могут включать: 

    • Усиленные предубеждения в исследовательских проектах, услугах и разработке программ. Проблемные данные об обучении вызывают особое беспокойство, если они используются в правоохранительных органах и банковских учреждениях (например, для неблагоприятного воздействия на группы меньшинств).
    • Увеличение инвестиций и развития в рост и ассортимент обучающих данных. 
    • Все больше правительств ужесточают правила, ограничивающие разработку, продажу и использование данных обучения корпорациями для различных коммерческих инициатив.
    • Все больше компаний создают отделы по этике, чтобы гарантировать, что проекты, основанные на системах искусственного интеллекта, соответствуют этическим принципам.
    • Повышенное внимание к использованию ИИ в здравоохранении приведет к более строгому управлению данными, обеспечению конфиденциальности пациентов и этичному применению ИИ.
    • Расширение сотрудничества государственного и частного секторов для повышения грамотности в области ИИ, оснащения рабочей силы навыками для будущего, в котором доминирует ИИ.
    • Рост спроса на инструменты прозрачности ИИ заставляет компании уделять приоритетное внимание объяснимости в системах ИИ для понимания и доверия потребителей.

    Вопросы для рассмотрения

    • Как организации могут избежать использования проблемных обучающих данных?
    • Каковы другие потенциальные последствия неэтичных данных обучения?