ข้อมูลการฝึกอบรมที่มีปัญหา: เมื่อ AI ได้รับการสอนข้อมูลที่มีอคติ

เครดิตภาพ:
เครดิตภาพ
iStock

ข้อมูลการฝึกอบรมที่มีปัญหา: เมื่อ AI ได้รับการสอนข้อมูลที่มีอคติ

ข้อมูลการฝึกอบรมที่มีปัญหา: เมื่อ AI ได้รับการสอนข้อมูลที่มีอคติ

ข้อความหัวข้อย่อย
บางครั้งระบบปัญญาประดิษฐ์จะถูกนำมาใช้กับข้อมูลเชิงอัตวิสัยซึ่งอาจส่งผลต่อการดำเนินการและการตัดสินใจ
    • เขียนโดย:
    • ชื่อผู้เขียน
      มองการณ์ไกลควอนตัมรัน
    • ตุลาคม 14, 2022

    สรุปข้อมูลเชิงลึก

    เราคือสิ่งที่เราเรียนรู้และรับรู้ คำสั่งนี้ยังใช้กับปัญญาประดิษฐ์ (AI) แบบจำลองแมชชีนเลิร์นนิง (ML) ที่ป้อนข้อมูลไม่ครบถ้วน มีอคติ และผิดจรรยาบรรณ จะทำให้การตัดสินใจและข้อเสนอแนะที่เป็นปัญหาในท้ายที่สุด อัลกอริธึมที่ทรงพลังเหล่านี้อาจส่งผลต่อศีลธรรมและการรับรู้ของผู้ใช้หากนักวิจัยไม่ระวัง

    บริบทข้อมูลการฝึกอบรมที่มีปัญหา

    ตั้งแต่ปี 2010 เป็นต้นมา ทีมวิจัยได้รับการตรวจสอบการใช้ชุดข้อมูลการฝึกอบรมที่มีเนื้อหาไม่เหมาะสมหรือรวบรวมอย่างผิดจรรยาบรรณ ตัวอย่างเช่น ในปี 2016 ฐานข้อมูล MS-Celeb-1M ของ Microsoft ได้รวมรูปภาพ 10 ล้านภาพจากคนดัง 100,000 คน อย่างไรก็ตาม จากการตรวจสอบเพิ่มเติม ผู้สื่อข่าวพบว่าภาพถ่ายจำนวนมากเป็นภาพถ่ายของคนธรรมดาที่ถูกดึงมาจากเว็บไซต์ต่างๆ โดยไม่ได้รับความยินยอมหรือความรู้จากเจ้าของ

    แม้จะตระหนักเช่นนี้ แต่ชุดข้อมูลดังกล่าวยังคงถูกใช้โดยบริษัทใหญ่ ๆ เช่น Facebook และ SenseTime ซึ่งเป็นบริษัทจดจำใบหน้าของจีนที่เชื่อมโยงกับตำรวจของรัฐ ในทำนองเดียวกัน ชุดข้อมูลที่มีรูปภาพผู้คนกำลังเดินอยู่ในวิทยาเขตของมหาวิทยาลัย Duke (DukeMTMC) ก็ไม่ได้รวบรวมความยินยอมเช่นกัน ในที่สุด ชุดข้อมูลทั้งสองชุดก็ถูกลบออก 

    เพื่อเน้นผลเสียหายของข้อมูลการฝึกอบรมที่มีปัญหา นักวิจัยจากสถาบันเทคโนโลยีแมสซาชูเซตส์ (MIT) ได้สร้าง AI ชื่อ Norman ซึ่งพวกเขาสอนให้ทำคำบรรยายภาพจาก subreddit ที่เน้นภาพความรุนแรง จากนั้นทีมจึงวางนอร์แมนไว้กับโครงข่ายประสาทเทียมที่ได้รับการฝึกฝนโดยใช้ข้อมูลแบบเดิม นักวิจัยได้จัดหาระบบหมึก Rorschach ให้ทั้งสองระบบและขอให้ AIs อธิบายสิ่งที่พวกเขาเห็น ผลลัพธ์นั้นน่าทึ่งมาก โดยที่โครงข่ายประสาทเทียมมาตรฐานเห็น "ภาพถ่ายถุงมือเบสบอลขาวดำ" นอร์แมนตั้งข้อสังเกต "ชายคนหนึ่งถูกปืนกลฆ่าในเวลากลางวันแสกๆ" การทดลองแสดงให้เห็นว่า AI ไม่ได้เอนเอียงโดยอัตโนมัติ แต่วิธีการป้อนข้อมูลเหล่านั้นและแรงจูงใจของผู้สร้างอาจส่งผลกระทบอย่างมีนัยสำคัญต่อพฤติกรรมของ AI

    ผลกระทบก่อกวน

    ในปี 2021 องค์กรวิจัย Allen Institute for AI ได้สร้าง Ask Delphi ซึ่งเป็นซอฟต์แวร์ ML ที่สร้างคำตอบตามหลักอัลกอริทึมสำหรับคำตอบสำหรับคำถามด้านจริยธรรม นักวิจัยที่อยู่เบื้องหลังโครงการนี้ระบุว่า AI กำลังค่อยๆ มีประสิทธิภาพและคุ้นเคยมากขึ้น ดังนั้นนักวิทยาศาสตร์จึงจำเป็นต้องสอนจริยธรรมของระบบ ML เหล่านี้ โมเดล Unicorn ML เป็นรากฐานของ Delphi ได้รับการจัดทำขึ้นเพื่อดำเนินการให้เหตุผลแบบ "สามัญสำนึก" เช่น การเลือกจุดสิ้นสุดของสตริงข้อความที่น่าจะเป็นไปได้มากที่สุด 

    นอกจากนี้ นักวิจัยยังใช้ 'Commonsense Norm Bank' ธนาคารแห่งนี้ประกอบด้วยตัวอย่างการประเมินด้านจริยธรรมของผู้คน 1.7 ล้านตัวอย่างจากสถานที่อย่าง Reddit เป็นผลให้ผลผลิตของ Delphi เป็นแบบถุงผสม Delphi ตอบคำถามบางข้ออย่างสมเหตุสมผล (เช่น ความเท่าเทียมกันระหว่างชายและหญิง) ในขณะที่ในบางหัวข้อ Delphi น่ารังเกียจอย่างยิ่ง (เช่น การฆ่าล้างเผ่าพันธุ์เป็นที่ยอมรับได้ตราบใดที่มันทำให้ผู้คนมีความสุข)

    อย่างไรก็ตาม Delphi AI กำลังเรียนรู้จากประสบการณ์และดูเหมือนว่าจะอัปเดตคำตอบตามคำติชม ผู้เชี่ยวชาญบางคนมีปัญหากับการใช้งานวิจัยแบบสาธารณะและแบบเปิด เนื่องจากแบบจำลองอยู่ระหว่างดำเนินการและมีแนวโน้มที่จะได้รับคำตอบที่ไม่แน่นอน เมื่อ Ask Delphi เปิดตัวครั้งแรก Mar Hicks ศาสตราจารย์ด้านประวัติศาสตร์ที่ Illinois Tech ที่เชี่ยวชาญด้านเพศ แรงงาน และประวัติศาสตร์คอมพิวเตอร์ กล่าวว่าเป็นการละเลยของนักวิจัยที่จะเชิญผู้คนมาใช้ เนื่องจาก Delphi ให้คำตอบที่ผิดจรรยาบรรณอย่างยิ่งในทันที และบางส่วน เรื่องไร้สาระที่สมบูรณ์ 

    ใน 2023, ส่วนที่เหลือของโลก ได้ทำการศึกษาเรื่องอคติในตัวสร้างภาพ AI เมื่อใช้ Midjourney นักวิจัยค้นพบว่าภาพที่สร้างขึ้นยืนยันแบบแผนที่มีอยู่ นอกจากนี้ เมื่อ OpenAI ใช้ตัวกรองกับข้อมูลการฝึกอบรมสำหรับโมเดลการสร้างภาพ DALL-E 2 ก็ทำให้อคติที่เกี่ยวข้องกับเพศรุนแรงขึ้นโดยไม่ได้ตั้งใจ

    ความหมายของข้อมูลการฝึกที่มีปัญหา

    ข้อมูลการฝึกที่มีปัญหาอาจรวมถึง: 

    • เสริมอคติในโครงการวิจัย บริการ และการพัฒนาโปรแกรม ข้อมูลการฝึกอบรมที่มีปัญหานั้นเกี่ยวข้องเป็นพิเศษหากใช้ในหน่วยงานบังคับใช้กฎหมายและสถาบันการธนาคาร (เช่น การกำหนดเป้าหมายไปยังชนกลุ่มน้อยในเชิงลบ)
    • เพิ่มการลงทุนและการพัฒนาในการเติบโตและการแบ่งประเภทของข้อมูลการฝึกอบรม 
    • รัฐบาลต่างๆ ได้เพิ่มกฎข้อบังคับเพื่อจำกัดวิธีที่บริษัทพัฒนา ขาย และใช้ข้อมูลการฝึกอบรมสำหรับการริเริ่มเชิงพาณิชย์ต่างๆ
    • ธุรกิจจำนวนมากขึ้นที่จัดตั้งแผนกจริยธรรมเพื่อให้แน่ใจว่าโครงการที่ขับเคลื่อนโดยระบบ AI ปฏิบัติตามหลักเกณฑ์ด้านจริยธรรม
    • การตรวจสอบเพิ่มเติมเกี่ยวกับการใช้ AI ในการดูแลสุขภาพ นำไปสู่การกำกับดูแลข้อมูลที่เข้มงวดมากขึ้น ทำให้มั่นใจในความเป็นส่วนตัวของผู้ป่วยและการประยุกต์ใช้ AI ที่มีจริยธรรม
    • เพิ่มความร่วมมือระหว่างภาครัฐและเอกชนเพื่อส่งเสริมความรู้ด้าน AI เตรียมบุคลากรให้มีทักษะสำหรับอนาคตที่ครอบงำโดย AI
    • ความต้องการเครื่องมือโปร่งใสด้าน AI เพิ่มขึ้น ทำให้บริษัทชั้นนำจัดลำดับความสำคัญของการอธิบายในระบบ AI เพื่อความเข้าใจและความไว้วางใจของผู้บริโภค

    คำถามที่ต้องพิจารณา

    • องค์กรจะหลีกเลี่ยงการใช้ข้อมูลการฝึกอบรมที่เป็นปัญหาได้อย่างไร
    • ผลที่อาจเกิดขึ้นจากข้อมูลการฝึกอบรมที่ผิดจรรยาบรรณมีอะไรบ้าง