AI对齐匹配人工智能目标匹配人类价值观| 量子运行

图片来源：

iStock

AI对齐：匹配人工智能目标匹配人类价值观

一些研究人员认为，应该采取措施确保人工智能不会危害社会。

作者：
作者姓名
量子运行远见
2023 年 1 月 25 日

人工智能 (AI) 对齐是指 AI 系统的目标与人类价值观相匹配。像 OpenAI、DeepMind 和 Anthropic 这样的公司都有研究团队，他们的唯一重点是研究可能发生这种情况的不同场景的护栏。

人工智能对齐上下文

根据康奈尔大学 2021 年的一项研究，多项研究表明，由算法创建的工具或模型显示出源自其训练数据的偏差。例如，在自然语言处理 (NLP) 中，根据对女性有害的性别刻板印象，在有限数据集上训练的精选 NLP 模型已被记录在案。同样，其他研究发现，在篡改数据集上训练的算法会产生带有种族偏见的建议，尤其是在警务方面。

有很多例子表明机器学习系统对少数群体或遭受多种不利影响的群体做得更糟。特别是，自动面部分析和医疗保健诊断通常对女性和有色人种不太适用。当在分配医疗保健或教育等情况下使用本应基于事实和逻辑而不是情感的关键系统时，它们可能会造成更大的损害，因为它们会使识别这些建议背后的原因变得更加困难。

因此，科技公司正在创建 AI 对齐团队，以专注于保持算法的公平性和人性化。研究对于了解高级人工智能系统的发展方向以及随着人工智能能力的增长我们可能面临的挑战至关重要。

破坏性影响

根据 OpenAI（2021）AI 对齐负责人 Jan Leike 的说法，鉴于 AI 系统在 2010 年代才变得有能力，因此大多数 AI 对齐研究都是理论性的，这是可以理解的。当极其强大的人工智能系统协调一致时，人类面临的挑战之一是这些机器可能会创建过于复杂的解决方案，无法审查和评估它们是否在道德上有意义。

Leike 设计了一种递归奖励建模 (RRM) 策略来解决这个问题。通过 RRM，几个“助手”AI 被教导来帮助人类评估更复杂的 AI 的性能。他对创造他称之为“对齐 MVP”的东西的可能性持乐观态度。用创业术语来说，MVP（或最小可行产品）是公司可以构建的最简单的产品来测试一个想法。希望有一天，人工智能在研究人工智能及其与价值观的一致性方面与人类的表现相匹配，同时也具有功能性。

虽然对 AI 对齐的兴趣增加是一个净积极因素，但该领域的许多分析师认为，领先的 AI 实验室的许多“道德”工作只是旨在让科技公司看起来不错并避免负面宣传的公共关系。这些人不希望道德发展实践很快成为这些公司的优先事项。

这些观察结果强调了跨学科方法对价值协调工作的重要性，因为这是一个相对较新的道德和技术探究领域。不同的知识分支应该成为包容性研究议程的一部分。这一举措还表明，即使人工智能系统变得更加先进，技术专家和政策制定者也需要了解他们的社会背景和利益相关者。