Data sintetik: Mencipta sistem AI yang tepat menggunakan model buatan

KREDIT GAMBAR:
Kredit Image
iStock

Data sintetik: Mencipta sistem AI yang tepat menggunakan model buatan

Data sintetik: Mencipta sistem AI yang tepat menggunakan model buatan

Teks subtajuk
Untuk mencipta model kecerdasan buatan (AI) yang tepat, data simulasi yang dibuat oleh algoritma menyaksikan peningkatan utiliti.
    • Pengarang
    • Nama pengarang
      Quantumrun Foresight
    • Semoga 4, 2022

    Ringkasan cerapan

    Data sintetik, alat berkuasa yang mempunyai aplikasi daripada penjagaan kesihatan hingga runcit, sedang membentuk semula cara sistem AI dibangunkan dan dilaksanakan. Dengan membolehkan penciptaan set data yang pelbagai dan kompleks tanpa membahayakan maklumat sensitif, data sintetik meningkatkan kecekapan merentas industri, memelihara privasi dan mengurangkan kos. Walau bagaimanapun, ia juga memberikan cabaran, seperti potensi penyalahgunaan dalam mencipta media yang memperdaya, kebimbangan alam sekitar yang berkaitan dengan penggunaan tenaga, dan peralihan dalam dinamik pasaran buruh yang perlu diurus dengan teliti.

    Konteks data sintetik

    Selama beberapa dekad, data sintetik telah wujud dalam bentuk yang berbeza. Ia mungkin ditemui dalam permainan komputer seperti simulator penerbangan dan dalam simulasi fizik yang menggambarkan segala-galanya daripada atom hingga galaksi. Kini, data sintetik sedang digunakan dalam industri seperti penjagaan kesihatan untuk menyelesaikan cabaran AI dunia sebenar.

    Kemajuan AI terus menghadapi beberapa halangan pelaksanaan. Set data yang besar, sebagai contoh, diperlukan untuk menyampaikan penemuan yang boleh dipercayai, bebas daripada berat sebelah dan mematuhi peraturan privasi data yang semakin ketat. Di tengah-tengah cabaran ini, data beranotasi yang dicipta oleh simulasi atau program berkomputer telah muncul sebagai alternatif kepada data tulen. Data ciptaan AI ini, dikenali sebagai data sintetik, adalah penting untuk menyelesaikan kebimbangan privasi dan menghapuskan prasangka kerana ia dapat memastikan kepelbagaian data yang mencerminkan dunia sebenar.

    Pengamal penjagaan kesihatan menggunakan data sintetik, sebagai contoh, dalam sektor imej perubatan untuk melatih sistem AI sambil mengekalkan kerahsiaan pesakit. Firma penjagaan maya, Curai, misalnya, menggunakan 400,000 kes perubatan sintetik untuk melatih algoritma diagnosis. Tambahan pula, peruncit seperti Caper menggunakan simulasi 3D untuk mencipta set data sintetik seribu gambar daripada lima tangkapan produk. Menurut kajian Gartner yang dikeluarkan pada Jun 2021 yang memfokuskan pada data sintetik, kebanyakan data yang digunakan dalam pembangunan AI akan dihasilkan secara buatan oleh perundangan, piawaian statistik, simulasi atau cara lain menjelang 2030.

    Kesan yang mengganggu

    Data sintetik membantu dalam pemeliharaan privasi dan pencegahan pelanggaran data. Sebagai contoh, hospital atau syarikat mungkin menawarkan pembangun data perubatan sintetik berkualiti tinggi untuk melatih sistem diagnosis kanser berasaskan AIā€”data yang kompleks seperti data dunia sebenar yang dimaksudkan untuk ditafsirkan oleh sistem ini. Dengan cara ini, pembangun mempunyai set data berkualiti untuk digunakan semasa mereka bentuk dan menyusun sistem, dan rangkaian hospital tidak menghadapi risiko membahayakan data perubatan pesakit yang sensitif. 

    Data sintetik seterusnya boleh membenarkan pembeli data ujian untuk mengakses maklumat pada harga yang lebih rendah daripada perkhidmatan tradisional. Menurut Paul Walborsky, yang mengasaskan AI Reverie, salah satu perniagaan data sintetik khusus pertama, imej tunggal yang berharga $6 daripada perkhidmatan pelabelan boleh dijana secara buatan untuk enam sen. Sebaliknya, data sintetik akan membuka jalan kepada data tambahan, yang memerlukan penambahan data baharu pada set data dunia sebenar sedia ada. Pembangun boleh memutar atau mencerahkan imej lama untuk membuat imej baharu. 

    Akhir sekali, memandangkan kebimbangan privasi dan sekatan kerajaan, maklumat peribadi yang wujud dalam pangkalan data menjadi semakin diundangkan dan kompleks, menjadikannya lebih sukar untuk maklumat dunia sebenar digunakan untuk mencipta program dan platform baharu. Data sintetik boleh memberikan pembangun penyelesaian penyelesaian untuk menggantikan data yang sangat sensitif.

    Implikasi data sintetik 

    Implikasi data sintetik yang lebih luas mungkin termasuk:

    • Pembangunan dipercepatkan sistem AI baharu, dalam skala dan kepelbagaian, yang meningkatkan proses dalam pelbagai industri dan bidang disiplin, membawa kepada peningkatan kecekapan dalam sektor seperti penjagaan kesihatan, pengangkutan dan kewangan.
    • Membolehkan organisasi berkongsi maklumat dengan lebih terbuka dan pasukan bekerjasama dan beroperasi dengan lebih cekap, yang membawa kepada persekitaran kerja yang lebih padu dan keupayaan untuk menangani projek yang kompleks dengan mudah.
    • Pembangun dan profesional data boleh menghantar e-mel atau membawa set data sintetik yang besar pada komputer riba mereka, selamat untuk mengetahui bahawa data kritikal tidak terancam, membawa kepada keadaan kerja yang lebih fleksibel dan selamat.
    • Kekerapan pelanggaran keselamatan siber pangkalan data yang berkurangan, kerana data sahih tidak lagi perlu diakses atau dikongsi sekerap, yang membawa kepada persekitaran digital yang lebih selamat untuk perniagaan dan individu.
    • Kerajaan memperoleh lebih banyak kebebasan untuk melaksanakan perundangan pengurusan data yang lebih ketat tanpa bimbang tentang menghalang pembangunan industri sistem AI, yang membawa kepada landskap penggunaan data yang lebih terkawal dan telus.
    • Potensi data sintetik digunakan secara tidak beretika dalam mencipta deepfakes atau media manipulatif lain, yang membawa kepada maklumat salah dan penghakisan kepercayaan dalam kandungan digital.
    • Peralihan dalam dinamik pasaran buruh, dengan peningkatan pergantungan pada data sintetik berpotensi mengurangkan keperluan untuk peranan pengumpulan data, yang membawa kepada perpindahan pekerjaan dalam sektor tertentu.
    • Kesan alam sekitar yang berpotensi daripada peningkatan sumber pengiraan yang diperlukan untuk menjana dan mengurus data sintetik, yang membawa kepada penggunaan tenaga yang lebih tinggi dan kebimbangan alam sekitar yang berkaitan.

    Soalan yang perlu dipertimbangkan

    • Apakah industri lain yang boleh mendapat manfaat daripada data sintetik?
    • Apakah peraturan yang perlu dilaksanakan oleh kerajaan mengenai cara data sintetik dicipta, digunakan dan digunakan? 

    Rujukan wawasan

    Pautan popular dan institusi berikut telah dirujuk untuk cerapan ini: