Data latihan bermasalah: Apabila AI diajar data berat sebelah

KREDIT GAMBAR:
Kredit Image
iStock

Data latihan bermasalah: Apabila AI diajar data berat sebelah

Data latihan bermasalah: Apabila AI diajar data berat sebelah

Teks subtajuk
Sistem kecerdasan buatan kadangkala diperkenalkan dengan data subjektif yang boleh menjejaskan cara ia bertindak dan membuat keputusan.
    • Pengarang
    • Nama pengarang
      Quantumrun Foresight
    • Oktober 14, 2022

    Ringkasan cerapan

    Kita adalah apa yang kita pelajari dan dihayati; diktum ini juga digunakan untuk kecerdasan buatan (AI). Model pembelajaran mesin (ML) yang diberi data yang tidak lengkap, berat sebelah dan tidak beretika akhirnya akan membuat keputusan dan cadangan yang bermasalah. Algoritma berkuasa ini kemudiannya boleh mempengaruhi moral dan persepsi pengguna jika penyelidik tidak berhati-hati.

    Konteks data latihan yang bermasalah

    Sejak 2010-an, pasukan penyelidik telah diteliti kerana menggunakan set data latihan dengan kandungan yang tidak sesuai atau dikumpulkan secara tidak beretika. Sebagai contoh, pada tahun 2016, pangkalan data MS-Celeb-1M Microsoft termasuk 10 juta imej daripada 100,000 selebriti yang berbeza. Bagaimanapun, selepas pemeriksaan lanjut, wartawan mendapati bahawa banyak gambar adalah orang biasa yang diambil dari pelbagai laman web tanpa kebenaran atau pengetahuan pemilik.

    Di sebalik kesedaran ini, set data itu terus digunakan oleh syarikat utama seperti Facebook dan SenseTime, sebuah syarikat pengecaman muka China yang mempunyai pautan kepada polis negeri. Begitu juga, set data yang mengandungi gambar orang yang berjalan di kampus Universiti Duke (DukeMTMC) juga tidak mendapatkan persetujuan. Akhirnya, kedua-dua set data telah dialih keluar. 

    Untuk menyerlahkan kesan merosakkan data latihan yang bermasalah, penyelidik di Massachusetts Institute of Technology (MIT) mencipta AI yang dipanggil Norman yang mereka ajar untuk melakukan kapsyen imej daripada subreddit yang menyerlahkan keganasan grafik. Pasukan itu kemudian meletakkan Norman terhadap rangkaian saraf yang dilatih menggunakan data konvensional. Para penyelidik membekalkan kedua-dua sistem dengan inkblots Rorschach dan meminta AI untuk menerangkan apa yang mereka lihat. Hasilnya sangat menakjubkan: di mana rangkaian saraf standard melihat "foto hitam dan putih sarung tangan besbol," Norman memerhatikan "seorang lelaki dibunuh oleh mesingan pada siang hari." Percubaan menunjukkan bahawa AI tidak berat sebelah secara automatik, tetapi kaedah input data dan motif penciptanya boleh memberi kesan yang ketara kepada tingkah laku AI.

    Kesan yang mengganggu

    Pada tahun 2021, organisasi penyelidikan Allen Institute for AI mencipta Ask Delphi, perisian ML yang secara algoritma menjana respons untuk jawapan kepada sebarang soalan etika. Para penyelidik di sebalik projek itu menyatakan bahawa AI secara beransur-ansur menjadi lebih berkuasa dan biasa, jadi saintis perlu mengajar etika sistem ML ini. Model Unicorn ML ialah asas Delphi. Ia telah dirumuskan untuk menjalankan penaakulan "akal sehat", seperti memilih pengakhiran yang paling berkemungkinan pada rentetan teks. 

    Tambahan pula, penyelidik menggunakan 'Commonsense Norm Bank.' Bank ini terdiri daripada 1.7 juta contoh penilaian etika orang dari tempat seperti Reddit. Akibatnya, keluaran Delphi adalah beg campuran. Delphi menjawab beberapa soalan dengan munasabah (cth., kesaksamaan antara lelaki dan wanita), sedangkan, dalam beberapa topik, Delphi benar-benar menyinggung perasaan (cth., pembunuhan beramai-ramai boleh diterima selagi ia menggembirakan orang ramai).

    Walau bagaimanapun, Delphi AI sedang belajar daripada pengalamannya dan nampaknya mengemas kini jawapannya berdasarkan maklum balas. Sesetengah pakar bimbang dengan penggunaan awam dan terbuka penyelidikan, memandangkan model itu sedang berjalan dan terdedah kepada jawapan yang tidak menentu. Apabila Ask Delphi memulakan kerjayanya, Mar Hicks, seorang profesor Sejarah di Illinois Tech yang pakar dalam jantina, buruh, dan sejarah pengkomputeran, berkata bahawa penyelidik cuai untuk menjemput orang ramai untuk menggunakannya, memandangkan Delphi segera memberikan jawapan yang sangat tidak beretika dan beberapa karut lengkap. 

    Dalam 2023, Rest of the World menjalankan kajian tentang berat sebelah dalam penjana imej AI. Menggunakan Midjourney, penyelidik mendapati bahawa imej yang dihasilkan mengesahkan stereotaip sedia ada. Di samping itu, apabila OpenAI menggunakan penapis pada data latihan untuk model penjanaan imej DALL-E 2, ia secara tidak sengaja meningkatkan berat sebelah yang berkaitan dengan jantina.

    Implikasi data latihan yang bermasalah

    Implikasi yang lebih luas daripada data latihan bermasalah mungkin termasuk: 

    • Kecondongan diperkukuh dalam projek penyelidikan, perkhidmatan dan pembangunan program. Data latihan yang bermasalah amat membimbangkan jika digunakan dalam penguatkuasaan undang-undang dan institusi perbankan (cth, menyasarkan kumpulan minoriti secara buruk).
    • Peningkatan pelaburan dan pembangunan dalam pertumbuhan dan pelbagai data latihan. 
    • Lebih banyak kerajaan meningkatkan peraturan untuk mengehadkan cara syarikat membangun, menjual dan menggunakan data latihan untuk pelbagai inisiatif komersial.
    • Lebih banyak perniagaan yang menubuhkan jabatan etika untuk memastikan projek yang dikuasakan oleh sistem AI mengikut garis panduan etika.
    • Pemeriksaan dipertingkatkan terhadap penggunaan AI dalam penjagaan kesihatan yang membawa kepada tadbir urus data yang lebih ketat, memastikan privasi pesakit dan aplikasi AI yang beretika.
    • Meningkatkan kerjasama sektor awam dan swasta untuk memupuk celik AI, melengkapkan tenaga kerja dengan kemahiran untuk masa depan yang didominasi AI.
    • Permintaan yang meningkat untuk alatan ketelusan AI, membawa syarikat untuk mengutamakan kebolehjelasan dalam sistem AI untuk pemahaman dan kepercayaan pengguna.

    Soalan yang perlu dipertimbangkan

    • Bagaimanakah organisasi boleh mengelak daripada menggunakan data latihan yang bermasalah?
    • Apakah akibat lain yang berpotensi daripada data latihan yang tidak beretika?