Quantumrun

BEELDKREDIET:

iStock

Spraaksintese: Robotte wat uiteindelik emosies kan uitdruk

GEBOU VIR MORE SE TOEKOMS

Die Quantumrun Trends Platform sal jou die insigte, gereedskap en gemeenskap gee om toekomstige neigings te verken en te floreer.

SPESIALE AANBOD

$5 PER MAAND

Teken vandag in

Bekyk alle voordele

Spraaksintese: Robotte wat uiteindelik emosies kan uitdruk

Die spraaksintese-tegnologie open nuwe geleenthede vir meer interaktiewe bots.

Author:
Author naam
Quantumrun Foresight
Desember 29, 2022

Insig opsomming

Terwyl masjiengegenereerde spraak al 'n rukkie bestaan, is dit slegs deur ontwikkelings in spraakherkenning en generering dat dit minder robotagtig begin klink. Sommige maatskappye gebruik stemsintese en kloning vooruitgang om emosies (dws toon) in masjien-gegenereerde spraak te voeg. Die langtermyn-implikasies van spraaksintese kan die herskepping van celebrity-stemme en selfs meer oortuigende diepvalse inhoud insluit.

Spraaksintese konteks

Sintetiese spraak word gegenereer deur 'n nie-menslike bron (bv. 'n rekenaar) terwyl die klank van 'n menslike stem herskep word. Hierdie tegnologie het bestaan sedert die 1930's toe die Amerikaanse akoestiese ingenieur Homer Dudley die eerste vocoder (stemsintetiseerder) gebou het. Geleidelik het stelsels begin ontstaan wat Gaussiese mengselmodelle (GMM) gebruik het om die kwaliteit van spraaksintese te verbeter, maar nie die spoed nie. Vooruitgang in diep leer (DL, 'n masjienleermetode) en kunsmatige intelligensie (KI) het egter die tegnologie verfyn om meer geloofwaardige en natuurlik klinkende gesprekke te produseer. Spraaksintese word hoofsaaklik ondersteun deur twee diep neurale netwerke (DNN) tegnologieë: teks-na-spraak (TTS) en stemomskakeling (VC).

Teks-na-spraak skakel teks na stem om, terwyl VC 'n persoon se stem kan transformeer om 'n ander s'n na te boots. Hierdie twee DDN's word dikwels in virtuele assistente gebruik, en kan meer genuanseerde stemme en gesprekke skep. Spraaksintese kan meer nadruklike robotversorgers en slimmer digitale huisassistente skep.

Sintetiese stemtegnologie kan egter ook vir kuberaanvalle gebruik word. Hierdie bedrieglike aktiwiteite kopieer mense se stemafdrukke (stemmonsters wat digitaal gestoor word om as hul biometriese identifikasie te dien) om stelsels en toestelle te infiltreer. Stemkloning kan ook kollegas flous om hul wagwoorde en ander sensitiewe maatskappyinligting te gee. Gesteelde of gegenereerde stemme kan ook gebruik word in uitvissing-aanvalle waar mense mislei word om geld te stuur of dit na spesifieke bankrekeninge oor te dra.

Ontwrigtende impak

In 2021 het navorsers van die telekommunikasiemaatskappy Hitachi en Japan se Universiteit van Tsukuba ’n KI-model ontwikkel wat mensagtige spraak kan naboots, insluitend verskillende oudio-gebaseerde emosionele merkers. Die toespraak is bedoel om soos 'n professionele versorger te klink. Modelle soos hierdie is bedoel om gebruik te word in robotte of toestelle wat geselskap, ondersteuning en rigting kan bied vir individue wat dit benodig. Die span het sy KI-model geleer deur dit eers met voorbeelde van emosionele spraak te voed.

Daarna word 'n emosieherkenner opgelei om die gevoel te identifiseer, en 'n spraaksintesemodel word ontwikkel om emosionele spraak te skep. Die emosieherkenner help om die spraaksintetiseerder te lei, afhangende van watter gevoel of "teiken-emosie" die gebruiker verwag of moet hoor. Die navorsers het hul model op bejaarde pasiënte getoets, en deelnemers het as gevolg daarvan meer energiek geword gedurende die dag. Boonop kan die model die pasiënte kalmeer en hulle snags laat slaap.

Intussen word stemsintese ook toenemend in rolprente gebruik. Byvoorbeeld, om die sintetiese stemvertelling vir die 2022 Netflix-doku-reeks, The Andy Warhol Diaries, te skep, het die stemopwekkerfirma Resemble AI 3 minute en 12 sekondes van Warhol se oorspronklike stemopnames uit die 1970's en 80's gebruik. Die firma se tegnologie het toegelaat dat Warhol se stem herskep word om sy eie woorde uit die dagboeke op te sê, wat 'n sesdelige meesleurende dokumentêr oor sy lewe geskep het.

Die span het die gegenereerde uitset van Warhol se stem van die KI geneem en aanpassings vir emosie en toonhoogte gemaak. Hulle het ook mensagtige onvolmaakthede bygevoeg deur na klankgrepe van 'n ander spreker te verwys. Resemble AI herhaal dat die maatskappy voor enige stemkloning- of sinteseprojek altyd die toestemming van die stemeienaars of hul regsverteenwoordigers vra. Vir die doku-reeks het die maatskappy die toestemming van die Andy Warhol-stigting verkry.

Implikasies van spraaksintese

Wyer implikasies van spraaksintese kan die volgende insluit:

Mediamaatskappye wat spraaksintese gebruik om die stemme van afgestorwe bekendes vir rolprente en dokumentêre programme te herskep. Sommige gehore kan dit egter oneties en afstootlik vind.
Toenemende voorvalle van stemkloning kubermisdade, veral in die finansiëledienstebedryf.
Regstreekse portretfirmas wat sintetiese spraak gebruik om bekende skilderye en historiese figure tot lewe te bring. Hierdie diens is veral aantreklik vir museums en die onderwyssektor.
Spraaksintese word in diep valse video's gebruik om propaganda te versprei en mense valslik te beskuldig, veral joernaliste en aktiviste.
Meer beginondernemings wat op stemkloning en sintetiese spraakdienste fokus, insluitend bekendes en beïnvloeders wat hul stemme aan handelsmerke wil uitverhuur.
Verbeterde realisme in virtuele assistente en interaktiewe speletjies deur gevorderde spraaksintese, verbeter gebruikerservaring, maar wek kommer oor emosionele gehegtheid aan KI.
Toepassing van spraaksintese in geoutomatiseerde kliëntediens, vaartbelyning van bedrywighede, maar lei moontlik tot werksverplasing in die oproepsentrumbedryf.
Regeringsagentskappe wat spraaksintese gebruik vir staatsdiensaankondigings, wat veeltalige en aksentspesifieke kommunikasie moontlik maak, maar wat noukeurige toesig vereis om misbruik of verkeerde inligting te voorkom.