Kuantumrun

KREDIT GAMBAR:

iStock

Sintesis wicara: Robot sing pungkasane bisa ngungkapake emosi

Teknologi sintesis wicara mbukak kesempatan anyar kanggo bot sing luwih interaktif.

Babagan Author:
Jeneng panganggit
Quantumrun Foresight
Desember 29, 2022

Ringkesan wawasan

Nalika wicara sing digawe mesin wis ana sawetara wektu, mung liwat pangembangan pangenalan lan generasi wicara sing wiwit muni kurang robot. Sawetara perusahaan nggunakake sintesis swara lan kemajuan kloning kanggo nandhang emosi (yaiku, nada) menyang wicara sing digawe mesin. Implikasi jangka panjang saka sintesis wicara bisa uga kalebu nggawe ulang swara selebriti lan konten palsu sing luwih yakin.

Konteks sintesis wicara

Wicara sintetis diasilake dening sumber non-manungsa (contone, komputer) nalika nggawe maneh swara swara manungsa. Teknologi iki wis ana wiwit taun 1930-an nalika insinyur akustik Amerika Homer Dudley mbangun vocoder pisanan (voice synthesizer). Mboko sithik, sistem wiwit muncul sing nggunakake Gaussian Mixture Models (GMM) kanggo nambah kualitas sintesis wicara, sanajan ora kacepetan. Nanging, kemajuan ing sinau jero (DL, metode pembelajaran mesin) lan kecerdasan buatan (AI) wis nyempurnakake teknologi kasebut kanggo ngasilake obrolan sing luwih dipercaya lan alami. Sintesis wicara utamane didhukung dening rong teknologi jaringan saraf jero (DNN): teks-kanggo-ucapan (TTS) lan konversi swara (VC).

Text-to-speech ngowahi teks dadi swara, dene VC bisa ngowahi swara wong kanggo niru swara liyane. DDN loro iki asring digunakake ing asisten virtual, lan bisa nggawe swara lan obrolan sing luwih akeh. Sintesis wicara bisa nggawe pengasuh robot sing luwih tegas lan asisten omah digital sing luwih pinter.

Nanging, teknologi swara sintetik uga bisa digunakake kanggo serangan cyber. Kegiatan penipuan iki nyalin cetak swara wong (conto swara sing disimpen kanthi digital kanggo dadi identifikasi biometrik) kanggo nyusup sistem lan piranti. Kloning swara uga bisa ngapusi kanca-kanca supaya menehi sandhi lan informasi perusahaan sensitif liyane. Swara sing dicolong utawa digawe uga bisa digunakake ing serangan phishing ing ngendi wong diapusi ngirim dhuwit utawa nransfer menyang akun bank tartamtu.

Dampak gangguan

Ing taun 2021, peneliti saka perusahaan telekomunikasi Hitachi lan Universitas Tsukuba Jepang ngembangake model AI sing bisa niru wicara kaya manungsa, kalebu macem-macem spidol emosi adhedhasar audio. Wicara kasebut tegese kaya wong sing profesional. Model kaya iki dimaksudake kanggo digunakake ing robot utawa piranti sing bisa menehi kanca, dhukungan, lan arah kanggo individu sing mbutuhake. Tim kasebut ngajar model AI kanthi menehi panganan kanthi conto pidato emosional.

Sawisé iku, pangenalan emosi dilatih kanggo ngenali perasaan, lan model sintesis wicara dikembangake kanggo nggawe wicara emosional. Pangenalan emosi mbantu nuntun sintesis wicara gumantung saka perasaan utawa "emosi target" sing dikarepake utawa kudu dirungokake pangguna. Para peneliti nguji model kasebut ing pasien tuwa, lan peserta dadi luwih energik ing wayah awan minangka asil. Kajaba iku, model kasebut bisa nyenengake pasien lan nyenengake supaya turu ing wayah wengi.

Kangge, sintesis swara uga saya akeh digunakake ing film. Contone, kanggo nggawe narasi swara sintetik kanggo seri dokumen Netflix 2022, The Andy Warhol Diaries, firma generator swara Resemble AI nggarap 3 menit lan 12 detik rekaman swara asli Warhol saka taun 1970-an lan 80-an. Teknologi perusahaan kasebut ngidini swara Warhol digawe maneh kanggo ngucapake tembung-tembunge dhewe saka buku harian, nggawe dokumenter immersive enem bagean babagan uripe.

Tim kasebut njupuk output swara Warhol saka AI lan nggawe pangaturan kanggo emosi lan nada. Dheweke uga nambahake cacat kaya manungsa kanthi ngrujuk klip audio saka speaker liyane. Serupa AI nyatakake yen sadurunge kloning swara utawa proyek sintesis, perusahaan mesthi njaluk idin saka pamilik swara utawa wakil sah. Kanggo seri dokumen, perusahaan entuk ijin saka Yayasan Andy Warhol.

Implikasi sintesis wicara

Implikasi sintesis wicara sing luwih akeh bisa kalebu:

Perusahaan media nggunakake sintesis wicara kanggo nggawe maneh swara saka selebriti sing wis tilar donya kanggo film lan dokumenter. Nanging, sawetara pamirsa bisa nemokake iki ora etis lan ora sopan.
Tambah kedadeyan cybercrimes kloning swara, utamane ing industri layanan finansial.
Perusahaan potret langsung nggunakake ucapan sintetik kanggo nggawe lukisan lan tokoh sejarah sing misuwur. Layanan iki utamané atraktif kanggo museum lan sektor pendidikan.
Sintesis pidato digunakake ing video palsu kanggo nyebarake propaganda lan nuduh wong liya, utamane wartawan lan aktivis.
Perusahaan wiwitan luwih fokus ing kloning swara lan layanan wicara sintetik, kalebu selebriti lan influencer sing pengin nyewakake swara menyang merek.
Realisme sing ditingkatake ing asisten virtual lan game interaktif liwat sintesis wicara sing luwih maju, nambah pengalaman pangguna nanging nambah keprihatinan babagan lampiran emosional menyang AI.
Adoption sintesis wicara ing layanan pelanggan otomatis, streamlining operasi nanging duweni potensi mimpin kanggo pamindahan proyek ing industri call center.
Instansi pamrentah nggunakake sintesis ucapan kanggo pengumuman layanan umum, mbisakake komunikasi multibahasa lan spesifik aksen nanging mbutuhake pengawasan sing ati-ati kanggo nyegah penyalahgunaan utawa informasi sing salah.