Выравнивание ИИ, соответствующее целям искусственного интеллекта, соответствует человеческим ценностям

ИЗОБРАЖЕНИЕ КРЕДИТ:

Istock

Согласование ИИ: соответствие целей искусственного интеллекта человеческим ценностям

Некоторые исследователи считают, что должны быть реализованы меры, чтобы искусственный интеллект не наносил вреда обществу.

Автор:
Имя автора
Квантумран Форсайт
25 января 2023

Согласование искусственного интеллекта (ИИ) — это когда цели системы ИИ соответствуют человеческим ценностям. В таких компаниях, как OpenAI, DeepMind и Anthropic, есть группы исследователей, единственной целью которых является изучение барьеров для различных сценариев, в которых это может произойти.

Контекст выравнивания ИИ

Согласно исследованию Корнельского университета 2021 года, несколько исследований показали, что инструменты или модели, созданные с помощью алгоритмов, демонстрируют предвзятость, основанную на данных, на которых они были обучены. Например, при обработке естественного языка (NLP) было задокументировано, что некоторые модели NLP, обученные на ограниченных наборах данных, делают прогнозы, основанные на вредных гендерных стереотипах в отношении женщин. Точно так же другие исследования показали, что алгоритмы, обученные на подделанном наборе данных, приводят к рекомендациям с расовой предвзятостью, особенно в отношении полиции.

Существует множество примеров, когда системы машинного обучения работали хуже для меньшинств или групп, страдающих от множества недостатков. В частности, автоматический анализ лица и медицинская диагностика обычно не очень хорошо работают для женщин и людей с другим цветом кожи. Когда критически важные системы, которые должны основываться на фактах и логике, а не на эмоциях, используются в таких контекстах, как распределение ресурсов здравоохранения или образования, они могут нанести больший ущерб, усложняя определение причин, лежащих в основе этих рекомендаций.

В результате технологические фирмы создают команды по согласованию ИИ, чтобы сосредоточиться на том, чтобы алгоритмы оставались честными и гуманными. Исследования необходимы для понимания направления передовых систем ИИ, а также проблем, с которыми мы можем столкнуться по мере роста возможностей ИИ.

Разрушительное воздействие

По словам Яна Лейке, руководителя отдела выравнивания ИИ в OpenAI (2021), учитывая, что системы ИИ стали способными только в 2010-х годах, понятно, что большинство исследований выравнивания ИИ были теоретическими. Когда чрезвычайно мощные системы искусственного интеллекта согласовываются, одна из проблем, с которыми сталкиваются люди, заключается в том, что эти машины могут создавать решения, которые слишком сложны для анализа и оценки, имеют ли они этический смысл.

Лейке разработал стратегию рекурсивного моделирования вознаграждения (RRM), чтобы решить эту проблему. С RRM обучают несколько «вспомогательных» ИИ, чтобы помочь человеку оценить, насколько хорошо работает более сложный ИИ. Он с оптимизмом смотрит на возможность создания чего-то, что он называет «самым ценным игроком по выравниванию». С точки зрения стартапа, MVP (или минимально жизнеспособный продукт) — это самый простой возможный продукт, который компания может создать для проверки идеи. Есть надежда, что когда-нибудь ИИ сравняется с человеческими способностями в исследовании ИИ и его согласовании с ценностями, но при этом будет функциональным.

В то время как растущий интерес к согласованию ИИ является чистым позитивом, многие аналитики в этой области считают, что большая часть «этической» работы в ведущих лабораториях ИИ — это просто связи с общественностью, предназначенные для того, чтобы технологические компании выглядели хорошо и избегали негативной огласки. Эти люди не ожидают, что методы этического развития станут приоритетом для этих компаний в ближайшее время.

Эти наблюдения подчеркивают важность междисциплинарных подходов для усилий по согласованию ценностей, поскольку это относительно новая область моральных и технических исследований. Различные отрасли знаний должны быть частью инклюзивной программы исследований. Эта инициатива также указывает на необходимость того, чтобы технологи и политики постоянно осознавали свой социальный контекст и заинтересованные стороны, даже когда системы ИИ становятся все более совершенными.

Последствия выравнивания ИИ

Более широкие последствия согласования ИИ могут включать:

Лаборатории искусственного интеллекта нанимают различные советы по этике для наблюдения за проектами и соблюдения этических принципов ИИ.
Правительства создают законы, требующие от компаний представить свою ответственную структуру ИИ и то, как они планируют дальнейшее развитие своих проектов ИИ.
Увеличение споров об использовании алгоритмов в вербовке, общественном надзоре и правоохранительных органах.
Исследователи увольняются из крупных лабораторий искусственного интеллекта из-за конфликта интересов между этическими и корпоративными целями.
Усиление давления на правительства с целью регулирования передовых систем искусственного интеллекта, которые одновременно невероятно мощны, но потенциально могут нарушать права человека.