人工智慧匹配人工智慧目標符合人類價值| 量子運行

圖片來源：

iStock

AI對齊：匹配人工智能目標匹配人類價值觀

一些研究人員認為，應該採取措施確保人工智能不會危害社會。

作者：
作者姓名
量子運行遠見
2023 年 1 月 25 日

人工智慧 (AI) 一致性是指人工智慧系統的目標與人類價值觀相符。 OpenAI、DeepMind 和 Anthropic 等公司擁有研究團隊，他們的唯一重點是研究可能發生這種情況的不同場景的護欄。

AI 對齊上下文

根據康乃爾大學 2021 年的一項研究，多項研究表明，演算法創建的工具或模型顯示出源自其訓練資料的偏差。例如，在自然語言處理 (NLP) 中，已記錄在有限資料集上訓練的精選 NLP 模型根據針對女性的有害性別刻板印象進行預測。同樣，其他研究發現，在被篡改的資料集上訓練的演算法會導致種族偏見的建議，特別是在警務領域。

有許多例子表明，機器學習系統對於遭受多種不利條件的少數群體或群體來說表現較差。特別是，自動臉部分析和醫療診斷通常對女性和有色人種不太適用。當在分配醫療保健或教育等環境中使用應基於事實和邏輯而不是情感的關鍵系統時，它們可能會因為更難識別這些建議背後的原因而造成更大的損害。

因此，科技公司正在組建人工智慧協調團隊，專注於保持演算法的公平性和人性化。研究對於了解先進人工智慧系統的方向以及隨著人工智慧能力的成長我們可能面臨的挑戰至關重要。

破壞性影響

OpenAI（2021）人工智慧對齊負責人 Jan Leike 表示，鑑於人工智慧系統在 2010 年代才具備能力，所以大多數人工智慧對齊研究都以理論為主，這是可以理解的。當強大的人工智慧系統聯合起來時，人類面臨的挑戰之一是這些機器可能會創建過於複雜的解決方案，無法審查和評估它們在道德上是否有意義。

Leike 設計了一種遞歸獎勵建模（RRM）策略來解決這個問題。透過 RRM，可以訓練多個「輔助」人工智慧來幫助人類評估更複雜的人工智慧的表現。他對創造他所說的「聯盟 MVP」的可能性持樂觀態度。用新創公司的術語來說，MVP（或最小可行產品）是公司為測試想法而建構的最簡單的產品。希望有一天，人工智慧在研究人工智慧方面的表現能夠與人類相匹配，並且與價值觀保持一致，同時也具有功能性。

雖然對人工智慧聯盟的興趣日益濃厚是一個積極的因素，但該領域的許多分析師認為，領先人工智慧實驗室的大部分「道德」工作只是公共關係，旨在讓科技公司看起來良好並避免負面宣傳。這些人並不期望道德發展實踐很快成為這些公司的優先事項。

這些觀察強調了跨學科方法對於價值調整工作的重要性，因為這是道德和技術探究的一個相對較新的領域。不同的知識分支應該成為包容性研究議程的一部分。這項措施也表明，即使人工智慧系統變得更加先進，技術專家和政策制定者也需要保持對社會背景和利害關係人的了解。