AI アライメントマッチング人工知能の目標は人間の価値観と一致します。クォンタムラン

画像クレジット:

iStock

AI の整合性: 人工知能の目標を一致させることは、人間の価値観と一致させる

一部の研究者は、人工知能が社会に害を及ぼさないようにするための対策を実施する必要があると考えています。

著者：
著者名
クォンタムラン・フォーサイト
2023 年 1 月 25 日

人工知能 (AI) の調整とは、AI システムの目標が人間の価値観と一致することです。 OpenAI、DeepMind、Anthropic などの企業には、これが発生する可能性のあるさまざまなシナリオのガードレールを研究することに専念する研究者チームがあります。

AI アラインメントコンテキスト

2021 年のコーネル大学の調査研究によると、いくつかの研究で、アルゴリズムによって作成されたツールまたはモデルが、トレーニングに使用されたデータに由来するバイアスを表示することが示されています。たとえば、自然言語処理 (NLP) では、限られたデータセットでトレーニングされた選択された NLP モデルが、女性に対する有害なジェンダーステレオタイプに基づいて予測を行うことが文書化されています。同様に、他の研究では、改ざんされたデータセットでトレーニングされたアルゴリズムが、特に警察活動において人種的に偏った推奨事項になることがわかりました。

機械学習システムがマイノリティや複数の不利益を被っているグループに対して悪い結果をもたらした例はたくさんあります。特に、自動化された顔分析とヘルスケア診断は、通常、女性や有色人種にはうまく機能しません。感情ではなく事実と論理に基づくべき重要なシステムが、医療や教育の割り当てなどのコンテキストで使用されると、これらの推奨事項の背後にある理由を特定するのが難しくなり、より多くの損害を与える可能性があります。

その結果、テクノロジー企業は AI 調整チームを作成して、アルゴリズムを公正かつ人道的に保つことに注力しています。高度な AI システムの方向性や、AI 機能の成長に伴って直面する可能性のある課題を理解するには、研究が不可欠です。

破壊的な影響

OpenAI (2021) で AI アライメントの責任者を務める Jan Leike 氏によると、AI システムが機能するようになったのは 2010 年代になってからであることを考えると、ほとんどの AI アライメント研究が理論中心であったことは理解できます。非常に強力な AI システムを連携させると、人間が直面する課題の XNUMX つは、これらのマシンが作成するソリューションが複雑すぎて、倫理的に意味があるかどうかを確認および評価できない可能性があることです。

Leike は、この問題を解決するために再帰的報酬モデリング (RRM) 戦略を考案しました。 RRM では、より複雑な AI のパフォーマンスを人間が評価できるように、いくつかの「ヘルパー」AI が教えられます。彼は、彼が「アラインメント MVP」と呼ぶものを作成する可能性について楽観的です。スタートアップの用語で言えば、MVP (または実用最小限の製品) は、企業がアイデアをテストするために構築できる最も単純な製品です。いつの日か、AI が AI の研究における人間のパフォーマンスと一致し、機能的であると同時に、AI とその価値観との整合性が実現されることが期待されています。

AI との連携への関心の高まりは正味のプラスですが、この分野の多くのアナリストは、主要な AI ラボでの「倫理」作業の多くは、テクノロジー企業の見栄えを良くし、否定的な宣伝を避けるために設計された広報活動にすぎないと考えています。これらの個人は、倫理的な開発慣行がこれらの企業の優先事項になるとは思っていません。

これらの観察結果は、道徳的および技術的調査の比較的新しい分野であるため、価値観の一致の取り組みに対する学際的なアプローチの重要性を強調しています。知識のさまざまな分野は、包括的な研究課題の一部であるべきです。このイニシアチブは、AI システムがより高度になったとしても、技術者と政策立案者が社会的背景と利害関係者を認識し続ける必要があることも示しています。