lari kuantum

KREDIT GAMBAR:

iStock

Data pelatihan bermasalah: Ketika AI diajarkan data bias

Sistem kecerdasan buatan terkadang diperkenalkan dengan data subjektif yang dapat memengaruhi cara kerjanya dan membuat keputusan.

Penulis:
nama penulis
Pandangan ke Depan Quantumrun
Oktober 14, 2022

Ringkasan wawasan

Kita adalah apa yang kita pelajari dan internalisasikan; diktum ini juga berlaku untuk kecerdasan buatan (AI). Model pembelajaran mesin (ML) yang diisi dengan data yang tidak lengkap, bias, dan tidak etis pada akhirnya akan membuat keputusan dan saran yang bermasalah. Algoritme yang kuat ini kemudian dapat memengaruhi moralitas dan persepsi pengguna jika peneliti tidak berhati-hati.

Konteks data pelatihan bermasalah

Sejak tahun 2010-an, tim peneliti telah diteliti karena menggunakan kumpulan data pelatihan dengan konten yang tidak sesuai atau dikumpulkan secara tidak etis. Misalnya, pada tahun 2016, database Microsoft MS-Celeb-1M menyertakan 10 juta gambar dari 100,000 selebriti berbeda. Namun, setelah diperiksa lebih lanjut, koresponden menemukan bahwa banyak foto yang diambil dari orang biasa dari berbagai situs tanpa izin atau sepengetahuan pemiliknya.

Meskipun ada realisasi ini, kumpulan data tersebut terus digunakan oleh perusahaan-perusahaan besar seperti Facebook dan SenseTime, sebuah perusahaan pengenalan wajah Tiongkok yang memiliki hubungan dengan kepolisian negara bagian. Demikian pula, kumpulan data yang berisi gambar orang-orang yang berjalan di kampus Universitas Duke (DukeMTMC) juga tidak mengumpulkan persetujuan. Akhirnya, kedua kumpulan data tersebut dihapus.

Untuk menyoroti efek merusak dari data pelatihan yang bermasalah, para peneliti di Massachusetts Institute of Technology (MIT) menciptakan AI bernama Norman yang mereka ajarkan untuk menampilkan teks gambar dari subreddit yang menyoroti kekerasan grafis. Tim kemudian menempatkan Norman melawan jaringan saraf yang dilatih menggunakan data konvensional. Para peneliti memasok kedua sistem dengan bercak tinta Rorschach dan meminta AI untuk menjelaskan apa yang mereka lihat. Hasilnya mencengangkan: di mana jaringan saraf standar melihat "foto hitam putih sarung tangan baseball", Norman mengamati "seorang pria yang dibunuh dengan senapan mesin di siang hari bolong". Eksperimen tersebut menunjukkan bahwa AI tidak bias secara otomatis, tetapi metode input data tersebut dan motif pembuatnya dapat memengaruhi perilaku AI secara signifikan.

Dampak yang mengganggu

Pada tahun 2021, organisasi penelitian Allen Institute for AI menciptakan Ask Delphi, sebuah perangkat lunak ML yang secara algoritmik menghasilkan respons untuk jawaban atas pertanyaan etika apa pun. Para peneliti di balik proyek ini menyatakan bahwa AI secara bertahap menjadi lebih kuat dan familiar, sehingga para ilmuwan perlu mengajarkan etika sistem ML ini. Model Unicorn ML adalah dasar dari Delphi. Ini diformulasikan untuk melakukan penalaran "akal sehat", seperti memilih akhiran yang paling mungkin untuk sebuah string teks.

Selanjutnya peneliti menggunakan 'Commonsense Norm Bank'. Bank ini terdiri dari 1.7 juta contoh evaluasi etika masyarakat dari tempat-tempat seperti Reddit. Hasilnya, keluaran Delphi beragam. Delphi menjawab beberapa pertanyaan dengan wajar (misalnya, kesetaraan antara laki-laki dan perempuan), sedangkan pada beberapa topik, Delphi benar-benar menyinggung (misalnya, genosida dapat diterima asalkan membuat orang bahagia).

Namun, AI Delphi belajar dari pengalamannya dan tampaknya memperbarui jawabannya berdasarkan masukan. Beberapa ahli merasa terganggu dengan penggunaan penelitian yang bersifat publik dan terbuka, mengingat model tersebut sedang dalam proses dan rentan terhadap jawaban yang tidak menentu. Ketika Ask Delphi memulai debutnya, Mar Hicks, seorang profesor Sejarah di Illinois Tech yang berspesialisasi dalam gender, tenaga kerja, dan sejarah komputasi, mengatakan bahwa para peneliti lalai mengundang orang untuk menggunakannya, mengingat Delphi segera memberikan jawaban yang sangat tidak etis dan beberapa omong kosong belaka.

Dalam 2023, Sisa Dunia melakukan penelitian tentang bias pada generator gambar AI. Dengan menggunakan Midjourney, peneliti menemukan bahwa gambar yang dihasilkan menegaskan stereotip yang ada. Selain itu, ketika OpenAI menerapkan filter pada data pelatihan untuk model pembuatan gambar DALL-E 2, hal ini secara tidak sengaja meningkatkan bias terkait gender.

Implikasi dari data pelatihan yang bermasalah

Implikasi yang lebih luas dari data pelatihan yang bermasalah dapat mencakup:

Bias yang diperkuat dalam proyek penelitian, layanan, dan pengembangan program. Data pelatihan yang bermasalah sangat memprihatinkan jika digunakan dalam penegakan hukum dan lembaga perbankan (misalnya, menargetkan kelompok minoritas secara negatif).
Peningkatan investasi dan pengembangan dalam pertumbuhan dan bermacam-macam data pelatihan.
Semakin banyak pemerintah yang meningkatkan peraturan untuk membatasi cara perusahaan mengembangkan, menjual, dan menggunakan data pelatihan untuk berbagai inisiatif komersial.
Semakin banyak bisnis yang mendirikan departemen etika untuk memastikan bahwa proyek yang didukung oleh sistem AI mengikuti pedoman etika.
Peningkatan pengawasan terhadap penggunaan AI dalam layanan kesehatan mengarah pada tata kelola data yang lebih ketat, memastikan privasi pasien dan penerapan AI yang etis.
Peningkatan kolaborasi sektor publik dan swasta untuk menumbuhkan literasi AI, membekali tenaga kerja dengan keterampilan untuk masa depan yang didominasi AI.
Meningkatnya permintaan akan alat transparansi AI, menyebabkan perusahaan memprioritaskan kemampuan menjelaskan dalam sistem AI demi pemahaman dan kepercayaan konsumen.