Quantumrun

KREDIT ZA SLIKE:

Istockphoto

Sinteza govora: Roboti koji konačno mogu izraziti emocije

Tehnologija sinteze govora otvara nove mogućnosti za više interaktivnih robota.

Autor:
ime autora
Quantumrun Foresight
Prosinac 29, 2022

Sažetak uvida

Iako je strojno generirani govor prisutan već neko vrijeme, tek zahvaljujući razvoju prepoznavanja i generiranja govora počinje zvučati manje robotski. Neke tvrtke koriste napredak sinteze glasa i kloniranja kako bi unijele emocije (tj. ton) u strojno generirani govor. Dugoročne implikacije sinteze govora mogle bi uključivati ponovno stvaranje glasova slavnih i još uvjerljiviji deepfake sadržaj.

Kontekst sinteze govora

Sintetički govor generira neljudski izvor (npr. računalo) dok ponovno stvara zvuk ljudskog glasa. Ova tehnologija postoji od 1930-ih kada je američki inženjer akustike Homer Dudley konstruirao prvi vokoder (sintetizator glasa). Postupno su se počeli pojavljivati sustavi koji su koristili Gaussove modele mješavine (GMM) za poboljšanje kvalitete sinteze govora, ali ne i brzine. Međutim, napredak u dubokom učenju (DL, metoda strojnog učenja) i umjetnoj inteligenciji (AI) poboljšao je tehnologiju za stvaranje uvjerljivijih i prirodnijih razgovora. Sintezu govora primarno podržavaju dvije tehnologije dubokih neuronskih mreža (DNN): pretvaranje teksta u govor (TTS) i pretvorba glasa (VC).

Tekst u govor pretvara tekst u glas, dok VC može transformirati nečiji glas da oponaša tuđi. Ova dva DDN-a često se koriste u virtualnim pomoćnicima i mogu stvoriti nijansiranije glasove i razgovore. Sinteza govora može stvoriti izrazitije robote njegovatelje i pametnije digitalne kućne pomoćnike.

Međutim, tehnologija sintetičkog glasa također se može koristiti za cyber napade. Ove lažne aktivnosti kopiraju glasovne otiske ljudi (glasovne uzorke koji se digitalno pohranjuju kako bi im služili kao biometrijska identifikacija) kako bi se infiltrirali u sustave i uređaje. Kloniranje glasa također može prevariti kolege da daju svoje lozinke i druge osjetljive podatke o tvrtki. Ukradeni ili generirani glasovi također se mogu koristiti u napadima krađe identiteta gdje su ljudi prevareni da pošalju novac ili ga prebace na određene bankovne račune.

Razarajući učinak

Godine 2021. istraživači iz telekomunikacijske tvrtke Hitachi i japanskog Sveučilišta Tsukuba razvili su AI model koji može oponašati ljudski govor, uključujući različite emocionalne markere temeljene na zvuku. Govor treba zvučati kao profesionalni njegovatelj. Ovakvi modeli namijenjeni su za upotrebu u robotima ili uređajima koji mogu ponuditi društvo, podršku i usmjeravanje pojedincima kojima je to potrebno. Tim je podučavao svoj AI model tako što ga je najprije hranio primjerima emocionalnog govora.

Nakon toga, prepoznavanje emocija se obučava da identificira osjećaj, a model sinteze govora se razvija za stvaranje emocionalnog govora. Prepoznavač emocija pomaže u usmjeravanju sintetizatora govora ovisno o tome koji osjećaj ili "ciljanu emociju" korisnik očekuje ili treba čuti. Istraživači su testirali svoj model na starijim pacijentima, a sudionici su kao rezultat toga postali energičniji tijekom dana. Osim toga, model je mogao smiriti pacijente i uspavati ih noću.

U međuvremenu, sinteza glasa također se sve više koristi u filmovima. Na primjer, za stvaranje sintetičkog glasovnog narativa za Netflixovu dokumentarnu seriju iz 2022., Dnevnici Andyja Warhola, tvrtka za generiranje glasa Resemble AI upotrijebila je 3 minute i 12 sekundi originalnih Warholovih glasovnih snimaka iz 1970-ih i 80-ih. Tehnologija tvrtke omogućila je rekreaciju Warholovog glasa kako bi recitirao vlastite riječi iz dnevnika, stvarajući šesterodijelni imerzivni dokumentarac o njegovom životu.

Tim je uzeo generirani rezultat Warholovog glasa iz umjetne inteligencije i napravio prilagodbe za emocije i visinu. Dodali su i nesavršenosti poput ljudskih referenciranjem audio zapisa drugog govornika. Resemble AI ponavlja da prije bilo kakvog projekta kloniranja ili sinteze glasa, tvrtka uvijek traži pristanak vlasnika glasa ili njihovih pravnih zastupnika. Za doku-seriju tvrtka je dobila dopuštenje Zaklade Andyja Warhola.

Implikacije sinteze govora

Šire implikacije sinteze govora mogu uključivati:

Medijske tvrtke koje koriste sintezu govora za ponovno stvaranje glasova preminulih slavnih osoba za filmove i dokumentarce. Međutim, neka bi publika to mogla smatrati neetičnim i odbojnim.
Povećani slučajevi kibernetičkog kriminala kloniranja glasa, posebno u industriji financijskih usluga.
Tvrtke za portrete uživo koriste sintetički govor kako bi oživjele poznate slike i povijesne ličnosti. Ova je usluga posebno atraktivna za muzeje i obrazovni sektor.
Sinteza govora koja se koristi u deepfake videozapisima za širenje propagande i lažno optuživanje ljudi, posebno novinara i aktivista.
Više startup tvrtki koje se fokusiraju na usluge kloniranja glasa i sintetičkog govora, uključujući slavne osobe i utjecajne osobe koje žele iznajmiti svoje glasove robnim markama.
Poboljšani realizam u virtualnim pomoćnicima i interaktivnim igrama kroz naprednu sintezu govora, poboljšavajući korisničko iskustvo, ali izaziva zabrinutost zbog emocionalne vezanosti za AI.
Usvajanje sinteze govora u automatiziranoj korisničkoj službi, pojednostavljuje operacije, ali potencijalno dovodi do premještanja poslova u industriji pozivnih centara.
Vladine agencije koje koriste sintezu govora za najave javnih službi, omogućujući višejezičnu komunikaciju s posebnim naglaskom, ali zahtijevaju pažljiv nadzor kako bi se spriječila zlouporaba ili dezinformacije.