Bahasa vokenisasi ai boleh lihat

KREDIT GAMBAR:

iStock

Vokenisasi: Bahasa yang boleh dilihat oleh AI

Dengan imej yang kini digabungkan ke dalam latihan sistem kecerdasan buatan (AI), robot mungkin akan dapat "melihat" arahan tidak lama lagi.

Pengarang
Nama pengarang
Quantumrun Foresight
Semoga 9, 2023

Pemprosesan bahasa semula jadi (NLP) telah membolehkan sistem kecerdasan buatan (AI) mempelajari pertuturan manusia dengan memahami perkataan dan memadankan konteks dengan sentimen. Satu-satunya kelemahan ialah sistem NLP ini berasaskan teks semata-mata. Vokenisasi akan mengubah semua itu.

Konteks vokenisasi

Dua program pembelajaran mesin (ML) berasaskan teks sering digunakan untuk melatih AI untuk memproses dan memahami bahasa manusia: OpenAI's Generative Pre-trained Transformer 3 (GPT-3) dan BERT Google (Bidirectional Encoder Representations from Transformers). Dalam terminologi AI, perkataan yang digunakan dalam latihan NLP dipanggil token. Penyelidik dari University of North Carolina (UNC) memerhatikan bahawa program latihan berasaskan teks adalah terhad kerana mereka tidak dapat "melihat", bermakna mereka tidak dapat menangkap maklumat visual dan komunikasi.

Sebagai contoh, jika seseorang bertanya kepada GPT-3 apakah warna biri-biri itu, sistem selalunya akan menjawab "hitam" walaupun ia jelas putih. Respons ini adalah kerana sistem berasaskan teks akan mengaitkannya dengan istilah "kambing hitam" dan bukannya mengenal pasti warna yang betul. Dengan menggabungkan visual dengan token (voken), sistem AI boleh mempunyai pemahaman holistik tentang istilah. Vokenisasi menyepadukan voken ke dalam sistem NLP yang diselia sendiri, membolehkan mereka mengembangkan "akal waras."

Mengintegrasikan model bahasa dan penglihatan komputer bukanlah konsep baharu, dan ia merupakan bidang yang berkembang pesat dalam penyelidikan AI. Gabungan kedua-dua jenis AI ini memanfaatkan kekuatan individu mereka. Model bahasa seperti GPT-3 dilatih melalui pembelajaran tanpa pengawasan, yang membolehkan mereka membuat skala dengan mudah. Sebaliknya, model imej seperti sistem pengecaman objek boleh belajar secara langsung daripada realiti dan tidak bergantung pada abstraksi yang disediakan oleh teks. Contohnya, model imej boleh mengenali bahawa seekor biri-biri berwarna putih dengan melihat gambar.

Kesan yang mengganggu

Proses vokenisasi agak mudah. Voken dicipta dengan memberikan imej yang sepadan atau berkaitan kepada token bahasa. Kemudian, algoritma (vokenizer) direka bentuk untuk menghasilkan voken melalui pembelajaran tanpa pengawasan (tiada parameter/peraturan eksplisit). AI akal sehat yang dilatih melalui vokenisasi boleh berkomunikasi dan menyelesaikan masalah dengan lebih baik kerana mereka mempunyai pemahaman konteks yang lebih mendalam. Pendekatan ini unik kerana ia bukan sahaja meramalkan token bahasa tetapi juga meramalkan token imej, yang merupakan sesuatu yang model BERT tradisional tidak dapat lakukan.

Sebagai contoh, pembantu robot akan dapat mengenali imej dan menavigasi proses dengan lebih baik kerana mereka boleh "melihat" perkara yang diperlukan daripada mereka. Sistem kecerdasan buatan yang dilatih untuk menulis kandungan akan dapat menghasilkan artikel yang terdengar lebih manusiawi, dengan idea yang mengalir dengan lebih baik, bukannya ayat yang terputus-putus. Memandangkan jangkauan luas aplikasi NLP, vokenisasi boleh membawa kepada chatbot yang berprestasi lebih baik, pembantu maya, diagnosis perubatan dalam talian, penterjemah digital dan banyak lagi.

Selain itu, gabungan penglihatan dan pembelajaran bahasa semakin popular dalam aplikasi pengimejan perubatan, khususnya untuk diagnosis imej perubatan automatik. Sebagai contoh, sesetengah penyelidik sedang bereksperimen dengan pendekatan ini pada imej radiograf dengan penerangan teks yang disertakan, di mana segmentasi semantik boleh memakan masa. Teknik vokenisasi boleh meningkatkan perwakilan ini dan meningkatkan pengimejan perubatan automatik dengan menggunakan maklumat teks.

Permohonan untuk vokenisasi

Beberapa permohonan untuk vokenisasi mungkin termasuk:

Bot sembang intuitif yang boleh memproses tangkapan skrin, gambar dan kandungan tapak web. Chatbot sokongan pelanggan, khususnya, mungkin boleh mengesyorkan produk dan perkhidmatan dengan tepat.
Penterjemah digital yang boleh memproses imej dan video dan menyediakan terjemahan yang tepat yang mengambil kira konteks budaya dan situasi.
Pengimbas bot media sosial dapat menjalankan analisis sentimen yang lebih holistik dengan menggabungkan imej, kapsyen dan ulasan. Aplikasi ini boleh berguna dalam penyederhanaan kandungan yang memerlukan analisis imej berbahaya.
Meningkatkan peluang pekerjaan untuk visi komputer dan jurutera pembelajaran mesin NLP dan saintis data.
Pemula membina sistem AI ini untuk mengkomersialkannya atau menyediakan penyelesaian tersuai untuk perniagaan.

Soalan untuk diulas

Pada pendapat anda, bagaimanakah vokenisasi akan mengubah cara kita berinteraksi dengan robot?
Bagaimanakah vokenisasi boleh mengubah cara kami menjalankan perniagaan dan berinteraksi dengan alat kami (telefon pintar dan peralatan pintar)?

Tambah ke senarai