AI 정렬 일치 인공 지능 목표는 인간의 가치와 일치

이미지 크레딧:

iStock

AI 정렬: 일치하는 인공 지능 목표는 인간의 가치와 일치합니다.

일부 연구자들은 인공 지능이 사회에 해를 끼치지 않도록 조치를 취해야 한다고 생각합니다.

저자:
저자 이름
퀀텀런 예측
2023 년 1 월 25 일

인공 지능(AI) 정렬은 AI 시스템의 목표가 인간의 가치와 일치하는 경우입니다. OpenAI, DeepMind 및 Anthropic과 같은 회사에는 이러한 일이 발생할 수 있는 다양한 시나리오에 대한 가드레일을 연구하는 데 집중하는 연구원 팀이 있습니다.

AI 정렬 컨텍스트

2021년 코넬 대학교 연구 조사에 따르면 알고리즘으로 생성된 도구 또는 모델이 훈련된 데이터에서 소싱된 편향을 표시하는 것으로 여러 연구에서 나타났습니다. 예를 들어, 자연어 처리(NLP)에서 제한된 데이터 세트에 대해 훈련된 일부 NLP 모델은 여성에 대한 유해한 성별 고정관념을 기반으로 예측을 수행하는 것으로 문서화되었습니다. 마찬가지로, 다른 연구에서는 변조된 데이터 세트에 대해 훈련된 알고리즘이 특히 치안에서 인종적으로 편향된 권장 사항을 초래한다는 사실을 발견했습니다.

기계 학습 시스템이 여러 불이익을 겪고 있는 소수 집단이나 집단에 대해 더 나쁜 일을 한 예는 많이 있습니다. 특히 자동화된 안면 분석 및 의료 진단은 일반적으로 여성과 유색 인종에게 잘 작동하지 않습니다. 감정이 아닌 사실과 논리에 기반해야 하는 중요한 시스템이 의료 또는 교육 할당과 같은 맥락에서 사용될 때 이러한 권장 사항 뒤에 있는 추론을 식별하기 어렵게 만들어 더 많은 피해를 줄 수 있습니다.

결과적으로 기술 회사는 알고리즘을 공정하고 인도적으로 유지하는 데 집중하기 위해 AI 정렬 팀을 만들고 있습니다. 연구는 고급 AI 시스템의 방향과 AI 기능이 성장함에 따라 직면할 수 있는 문제를 이해하는 데 필수적입니다.

파괴적 영향

OpenAI(2021)의 AI 정렬 책임자인 Jan Leike에 따르면 AI 시스템이 2010년대에야 가능해졌음을 감안할 때 대부분의 AI 정렬 연구는 이론이 무거웠다는 것을 이해할 수 있습니다. 엄청나게 강력한 AI 시스템이 정렬될 때 인간이 직면하는 문제 중 하나는 이러한 기계가 너무 복잡해서 검토하고 윤리적으로 타당한지 평가할 수 없는 솔루션을 만들 수 있다는 것입니다.

Leike는 이 문제를 해결하기 위해 재귀 보상 모델링(RRM) 전략을 고안했습니다. RRM을 사용하면 인간이 더 복잡한 AI가 얼마나 잘 수행하는지 평가할 수 있도록 여러 "도우미" AI가 학습됩니다. 그는 "정렬 MVP"라고 부르는 무언가를 만들 가능성에 대해 낙관적입니다. 시작 측면에서 MVP(또는 최소 실행 가능 제품)는 회사가 아이디어를 테스트하기 위해 구축할 수 있는 가장 간단한 제품입니다. 희망은 언젠가 AI가 AI를 연구하는 인간의 성과와 가치에 부합하는 동시에 기능적일 수 있다는 것입니다.

AI 정렬에 대한 관심이 증가하는 것은 순 긍정적이지만 현장의 많은 분석가는 선도적인 AI 연구소에서 수행하는 "윤리" 작업의 대부분이 기술 회사를 좋게 보이게 하고 부정적인 홍보를 피하기 위해 고안된 홍보 활동에 불과하다고 생각합니다. 이러한 개인은 윤리적 개발 관행이 곧 이러한 회사의 우선 순위가 될 것으로 기대하지 않습니다.

이러한 관찰은 가치 정렬 노력을 위한 학제간 접근 방식의 중요성을 강조합니다. 이는 상대적으로 새로운 도덕적 및 기술적 탐구 영역이기 때문입니다. 다양한 지식 분야가 포괄적인 연구 의제의 일부가 되어야 합니다. 이 이니셔티브는 또한 AI 시스템이 더욱 발전함에 따라 기술자와 정책 입안자가 사회적 맥락과 이해 관계자를 계속 인식해야 할 필요성을 지적합니다.