有問題的訓練數據:當 AI 被教導有偏見的數據時

圖片來源:
圖片來源
iStock

有問題的訓練數據:當 AI 被教導有偏見的數據時

有問題的訓練數據:當 AI 被教導有偏見的數據時

副標題文字
人工智能係統有時會引入主觀數據,這些數據會影響其行為和決策方式。
    • 作者:
    • 作者姓名
      量子運行遠見
    • 2022 年 10 月 14 日

    洞察總結

    我們是我們學習和內化的; 這句話也適用於人工智能(AI)。 使用不完整、有偏見和不道德數據的機器學習 (ML) 模型最終會做出有問題的決策和建議。 如果研究人員不小心,這些強大的算法可能會影響用戶的道德和觀念。

    有問題的訓練數據上下文

    自 2010 年代以來,研究團隊因使用含有不適當內容或不道德收集的訓練資料集而受到審查。例如,2016 年,微軟的 MS-Celeb-1M 資料庫包含 10 萬個不同名人的 100,000 萬張圖像。但記者進一步檢查發現,不少照片是在未經本人同意或不知情的情況下從各個網站上盜取的普通人照片。

    儘管如此,該資料集仍繼續被 Facebook 和商湯科技(一家與州警方有聯繫的中國臉部辨識公司)等大公司使用。同樣,包含人們在杜克大學校園行走的照片的資料集 (DukeMTMC) 也沒有徵得同意。最終,這兩個資料集都被刪除了。 

    為了突出有問題的訓練數據的破壞性影響,麻省理工學院 (MIT) 的研究人員創建了一個名為 Norman 的人工智能,他們教該人工智能從一個突出顯示圖形暴力的 subreddit 執行圖像字幕。 然後,該團隊將 Norman 與使用傳統數據訓練的神經網絡進行對比。 研究人員為這兩個系統提供了羅夏墨跡,並要求 AI 描述他們所看到的內容。 結果令人震驚:標準神經網絡看到“棒球手套的黑白照片”,諾曼觀察到“一個人在光天化日之下被機關槍謀殺”。 實驗表明,人工智能不會自動產生偏見,但這些數據輸入方法及其創造者的動機會​​顯著影響人工智能的行為。

    破壞性影響

    2021 年,研究組織艾倫人工智慧研究所創建了 Ask Delphi,這是一款機器學習軟體,可透過演算法產生對任何道德問題答案的回應。該計畫背後的研究人員表示,人工智慧正逐漸變得更加強大和熟悉,因此科學家需要教導這些機器學習系統的道德規範。 Unicorn ML 模型是 Delphi 的基礎。它被制定為執行“常識”推理,例如選擇文本字串最可能的結尾。 

    此外,研究人員也使用了「常識規範庫」。該資料庫包含來自 Reddit 等地方的 1.7 萬人的道德評估範例。結果,德爾福的產品魚龍混雜。德爾菲回答了一些問題(例如,男女平等),但在某些話題上,德爾菲是徹頭徹尾的冒犯(例如,種族滅絕是可以接受的,只要它能讓人們幸福)。

    然而,德爾福人工智慧正在從經驗中學習,似乎正在根據回饋更新其答案。一些專家對該研究的公開和開放使用感到困擾,因為該模型正在開發中,並且很容易出現不穩定的答案。當「Ask Delphi」首次亮相時,伊利諾伊理工學院歷史系教授 Mar Hicks 表示,邀請人們使用它是研究人員的疏忽,因為 Delphi 立即提供了極其不道德的答案,並且一些完全是胡說八道。 

    在2023, 世界其他地區 對人工智慧圖像生成器的偏差進行了研究。研究人員發現,使用 Midjourney 產生的圖像證實了現有的刻板印象。此外,當 OpenAI 對其 DALL-E 2 影像生成模型的訓練資料應用濾鏡時,它無意中加劇了與性別相關的偏見。

    有問題的訓練數據的影響

    有問題的訓練數據的更廣泛影響可能包括: 

    • 加強研究項目、服務和項目開發中的偏見。 如果在執法機構和銀行機構中使用有問題的培訓數據(例如,針對少數群體的不利目標),則尤其令人擔憂。
    • 增加對訓練數據增長和分類的投資和開發。 
    • 越來越多的政府增加法規以限制公司如何為各種商業計劃開發、銷售和使用培訓數據。
    • 更多企業建立道德部門,以確保由人工智能係統支持的項目遵循道德準則。
    • 加強對人工智慧在醫療保健中使用的審查,從而實現更嚴格的資料治理,確保病患隱私和道德的人工智慧應用。
    • 加強公共和私營部門的合作,以培養人工智慧素養,為勞動力提供技能,以應對人工智慧主導的未來。
    • 對人工智慧透明度工具的需求不斷增加,導致公司優先考慮人工智慧系統的可解釋性,以促進消費者的理解和信任。

    需要考慮的問題

    • 組織如何避免使用有問題的訓練數據?
    • 不道德的訓練數據的其他潛在後果是什麼?