Dữ liệu đào tạo có vấn đề: Khi AI được dạy dữ liệu thiên vị

TÍN DỤNG HÌNH ẢNH:
Tín dụng hình ảnh
iStock

Dữ liệu đào tạo có vấn đề: Khi AI được dạy dữ liệu thiên vị

Dữ liệu đào tạo có vấn đề: Khi AI được dạy dữ liệu thiên vị

Văn bản tiêu đề phụ
Hệ thống trí tuệ nhân tạo đôi khi được giới thiệu với dữ liệu chủ quan có thể ảnh hưởng đến cách nó hoạt động và đưa ra quyết định.
    • tác giả:
    • tên tác giả
      Tầm nhìn lượng tử
    • 14 Tháng Mười

    Tóm tắt thông tin chi tiết

    Chúng tôi là những gì chúng tôi học hỏi và nội bộ hóa; câu mệnh lệnh này cũng áp dụng cho trí tuệ nhân tạo (AI). Các mô hình học máy (ML) được cung cấp dữ liệu không đầy đủ, thiên vị và phi đạo đức cuối cùng sẽ đưa ra các quyết định và đề xuất có vấn đề. Những thuật toán mạnh mẽ này sau đó có thể ảnh hưởng đến đạo đức và nhận thức của người dùng nếu các nhà nghiên cứu không cẩn thận.

    Bối cảnh dữ liệu đào tạo có vấn đề

    Từ những năm 2010, các nhóm nghiên cứu đã bị giám sát chặt chẽ vì sử dụng tập dữ liệu huấn luyện có nội dung không phù hợp hoặc được thu thập một cách trái đạo đức. Ví dụ: năm 2016, cơ sở dữ liệu MS-Celeb-1M của Microsoft bao gồm 10 triệu hình ảnh của 100,000 người nổi tiếng khác nhau. Tuy nhiên, khi kiểm tra kỹ hơn, các phóng viên phát hiện ra rằng nhiều bức ảnh là của những người bình thường được lấy từ nhiều trang web khác nhau mà chủ sở hữu không hề hay biết.

    Bất chấp nhận thức này, tập dữ liệu vẫn tiếp tục được sử dụng bởi các công ty lớn như Facebook và SenseTime, một công ty nhận dạng khuôn mặt của Trung Quốc có liên kết với cảnh sát tiểu bang. Tương tự, một tập dữ liệu chứa hình ảnh những người đi bộ trong khuôn viên Đại học Duke (DukeMTMC) cũng không thu được sự đồng ý. Cuối cùng, cả hai tập dữ liệu đã bị xóa. 

    Để làm nổi bật tác hại của dữ liệu đào tạo có vấn đề, các nhà nghiên cứu tại Viện Công nghệ Massachusetts (MIT) đã tạo ra một AI có tên Norman mà họ đã dạy để thực hiện chú thích hình ảnh từ một subreddit làm nổi bật bạo lực đồ họa. Sau đó, nhóm nghiên cứu đã đặt Norman chống lại một mạng lưới thần kinh được đào tạo bằng cách sử dụng dữ liệu thông thường. Các nhà nghiên cứu đã cung cấp cho cả hai hệ thống các khe mực Rorschach và yêu cầu các AI mô tả những gì họ nhìn thấy. Kết quả thật đáng kinh ngạc: khi mạng lưới thần kinh tiêu chuẩn nhìn thấy "một bức ảnh đen trắng của chiếc găng tay bóng chày", Norman quan sát thấy "một người đàn ông bị giết bằng súng máy giữa ban ngày". Thử nghiệm đã chứng minh rằng AI không tự động bị thiên vị, nhưng các phương pháp nhập dữ liệu đó và động cơ của người tạo ra chúng có thể tác động đáng kể đến hành vi của AI.

    Tác động gián đoạn

    Vào năm 2021, tổ chức nghiên cứu Allen Institute for AI đã tạo ra Ask Delphi, một phần mềm ML tạo ra câu trả lời theo thuật toán cho bất kỳ câu hỏi đạo đức nào. Các nhà nghiên cứu đằng sau dự án cho biết AI đang dần trở nên mạnh mẽ và quen thuộc hơn, vì vậy các nhà khoa học cần dạy về đạo đức của hệ thống ML này. Mô hình Unicorn ML là nền tảng của Delphi. Nó được xây dựng để thực hiện lý luận "thông thường", chẳng hạn như chọn phần cuối có thể xảy ra nhất cho chuỗi văn bản. 

    Hơn nữa, các nhà nghiên cứu đã sử dụng 'Ngân hàng Định mức Commonsense'. Ngân hàng này bao gồm 1.7 triệu ví dụ về đánh giá đạo đức của mọi người từ những nơi như Reddit. Kết quả là, kết quả đầu ra của Delphi là một mớ hỗn độn. Delphi đã trả lời một số câu hỏi một cách hợp lý (ví dụ: bình đẳng giữa nam và nữ), trong khi đó, ở một số chủ đề, Delphi lại hết sức phản cảm (ví dụ: tội diệt chủng có thể chấp nhận được miễn là nó khiến mọi người vui vẻ).

    Tuy nhiên, Delphi AI đang học hỏi từ kinh nghiệm của mình và dường như đang cập nhật câu trả lời dựa trên phản hồi. Một số chuyên gia gặp rắc rối với việc sử dụng công khai và mở của nghiên cứu, vì mô hình này đang được tiến hành và có xu hướng đưa ra các câu trả lời thất thường. Khi Ask Delphi ra mắt, Mar Hicks, giáo sư Lịch sử tại Illinois Tech chuyên về giới tính, lao động và lịch sử máy tính, cho rằng việc các nhà nghiên cứu mời mọi người sử dụng nó là cẩu thả, vì Delphi ngay lập tức đưa ra những câu trả lời cực kỳ phi đạo đức và một số câu trả lời vô cùng thiếu đạo đức. hoàn toàn vô nghĩa. 

    Trong 2023, Phần còn lại của thế giới đã thực hiện một nghiên cứu về độ lệch trong trình tạo hình ảnh AI. Sử dụng Midjourney, các nhà nghiên cứu phát hiện ra rằng những hình ảnh được tạo ra khẳng định những khuôn mẫu hiện có. Ngoài ra, khi OpenAI áp dụng các bộ lọc cho dữ liệu huấn luyện cho mô hình tạo hình ảnh DALL-E 2, nó đã vô tình làm tăng thêm những thành kiến ​​​​liên quan đến giới tính.

    Hàm ý của dữ liệu đào tạo có vấn đề

    Hàm ý rộng hơn của dữ liệu đào tạo có vấn đề có thể bao gồm: 

    • Các thành kiến ​​được củng cố trong các dự án nghiên cứu, dịch vụ và phát triển chương trình. Dữ liệu đào tạo có vấn đề được đặc biệt quan tâm nếu được sử dụng trong các tổ chức thực thi pháp luật và ngân hàng (ví dụ: nhắm mục tiêu bất lợi vào các nhóm thiểu số).
    • Tăng cường đầu tư và phát triển vào việc tăng trưởng và phân loại dữ liệu đào tạo. 
    • Ngày càng có nhiều chính phủ tăng cường các quy định để hạn chế cách các công ty phát triển, bán và sử dụng dữ liệu đào tạo cho các sáng kiến ​​thương mại khác nhau.
    • Ngày càng có nhiều doanh nghiệp thành lập bộ phận đạo đức để đảm bảo rằng các dự án được cung cấp bởi hệ thống AI tuân theo các nguyên tắc đạo đức.
    • Tăng cường giám sát việc sử dụng AI trong chăm sóc sức khỏe dẫn đến quản trị dữ liệu chặt chẽ hơn, đảm bảo quyền riêng tư của bệnh nhân và ứng dụng AI có đạo đức.
    • Tăng cường hợp tác giữa khu vực công và tư nhân để nâng cao hiểu biết về AI, trang bị cho lực lượng lao động những kỹ năng cho một tương lai do AI thống trị.
    • Nhu cầu về các công cụ minh bạch AI ngày càng tăng, khiến các công ty ưu tiên khả năng giải thích trong hệ thống AI để người tiêu dùng hiểu và tin tưởng.

    Các câu hỏi cần xem xét

    • Làm thế nào các tổ chức có thể tránh sử dụng dữ liệu đào tạo có vấn đề?
    • Những hậu quả tiềm ẩn khác của dữ liệu đào tạo phi đạo đức là gì?