有问题的训练数据:当 AI 被教导有偏见的数据时

图片来源:
图片来源
iStock

有问题的训练数据:当 AI 被教导有偏见的数据时

有问题的训练数据:当 AI 被教导有偏见的数据时

副标题文字
人工智能系统有时会引入主观数据,这些数据会影响其行为和决策方式。
    • 作者:
    • 作者姓名
      量子运行远见
    • 2022 年 10 月 14 日

    洞察总结

    我们是我们学习和内化的; 这句话也适用于人工智能(AI)。 使用不完整、有偏见和不道德数据的机器学习 (ML) 模型最终会做出有问题的决策和建议。 如果研究人员不小心,这些强大的算法可能会影响用户的道德和观念。

    有问题的训练数据上下文

    自 2010 年代以来,研究团队因使用内容不合适或收集不道德的训练数据集而受到审查。例如,2016年,微软的MS-Celeb-1M数据库包含10万个不同名人的100,000万张图像。但记者进一步检查发现,不少照片是在未经本人同意或不知情的情况下从各个网站上盗取的普通人照片。

    尽管如此,该数据集仍继续被 Facebook 和商汤科技(一家与州警方有联系的中国面部识别公司)等大公司使用。同样,包含人们在杜克大学校园行走的照片的数据集 (DukeMTMC) 也没有征得同意。最终,这两个数据集都被删除了。 

    为了突出有问题的训练数据的破坏性影响,麻省理工学院 (MIT) 的研究人员创建了一个名为 Norman 的人工智能,他们教该人工智能从一个突出显示图形暴力的 subreddit 执行图像字幕。 然后,该团队将 Norman 与使用传统数据训练的神经网络进行对比。 研究人员为这两个系统提供了罗夏墨迹,并要求 AI 描述他们所看到的内容。 结果令人震惊:标准神经网络看到“棒球手套的黑白照片”,诺曼观察到“一个人在光天化日之下被机关枪谋杀”。 实验表明,人工智能不会自动产生偏见,但这些数据输入方法及其创造者的动机会显着影响人工智能的行为。

    破坏性影响

    2021 年,研究组织艾伦人工智能研究所创建了 Ask Delphi,这是一款机器学习软件,可以通过算法生成对任何道德问题答案的响应。该项目背后的研究人员表示,人工智能正逐渐变得更加强大和熟悉,因此科学家需要教导这些机器学习系统的道德规范。 Unicorn ML 模型是 Delphi 的基础。它被制定为执行“常识”推理,例如选择文本字符串最可能的结尾。 

    此外,研究人员还使用了“常识规范库”。该数据库包含来自 Reddit 等地方的 1.7 万个人们的道德评估示例。结果,德尔福的产品鱼龙混杂。德尔菲回答了一些问题(例如,男女平等),但在某些话题上,德尔菲是彻头彻尾的冒犯(例如,种族灭绝是可以接受的,只要它能让人们幸福)。

    然而,德尔福人工智能正在从经验中学习,并且似乎正在根据反馈更新其答案。一些专家对该研究的公开和开放使用感到困扰,因为该模型正在开发中,并且很容易出现不稳定的答案。当“Ask Delphi”首次亮相时,伊利诺伊理工学院历史系教授 Mar Hicks 表示,邀请人们使用它是研究人员的疏忽,因为 Delphi 立即提供了极其不道德的答案,并且一些问题完全是胡说八道。 

    2023年, 世界其他地区 对人工智能图像生成器的偏差进行了研究。研究人员发现,使用 Midjourney 生成的图像证实了现有的刻板印象。此外,当 OpenAI 对其 DALL-E 2 图像生成模型的训练数据应用过滤器时,它无意中加剧了与性别相关的偏见。

    有问题的训练数据的影响

    有问题的训练数据的更广泛影响可能包括: 

    • 加强研究项目、服务和项目开发中的偏见。 如果在执法机构和银行机构中使用有问题的培训数据(例如,针对少数群体的不利目标),则尤其令人担忧。
    • 增加对训练数据增长和分类的投资和开发。 
    • 越来越多的政府增加法规以限制公司如何为各种商业计划开发、销售和使用培训数据。
    • 更多企业建立道德部门,以确保由人工智能系统支持的项目遵循道德准则。
    • 加强对人工智能在医疗保健中使用的审查,从而实现更严格的数据治理,确保患者隐私和道德的人工智能应用。
    • 加强公共和私营部门的合作,以培养人工智能素养,为劳动力提供技能,以应对人工智能主导的未来。
    • 对人工智能透明度工具的需求不断增加,导致公司优先考虑人工智能系统的可解释性,以促进消费者的理解和信任。

    需要考虑的问题

    • 组织如何避免使用有问题的训练数据?
    • 不道德的训练数据的其他潜在后果是什么?

    洞察参考

    此见解引用了以下流行和机构链接: