Quantumrun

BILDA KREDITO:

iStock

Parolsintezo: Robotoj kiuj povas finfine esprimi emociojn

La parolsinteza teknologio malfermas novajn ŝancojn por pli interagaj robotoj.

Aŭtoro:
Aŭtora nomo
Quantumrun Foresight
Decembro 29, 2022

Enrigarda resumo

Dum maŝingenerita parolado ekzistas delonge, nur per evoluoj en parolrekono kaj generacio ĝi komencas soni malpli robote. Iuj kompanioj uzas voĉan sintezon kaj klonajn progresojn por infundi emociojn (t.e., tonon) en maŝin-generitan paroladon. La longdaŭraj implicoj de parolsintezo povus inkluzivi rekrei famulajn voĉojn kaj eĉ pli konvinkan profundan falsan enhavon.

Parolsintezo kunteksto

Sinteza parolado estas generita per ne-homa fonto (ekz., komputilo) dum rekreado de la sono de homa voĉo. Tiu teknologio ekzistis ekde la 1930-aj jaroj kiam amerika akustika inĝeniero Homer Dudley konstruis la unuan vokodilon (voĉsintezilo). Iom post iom, sistemoj komencis aperi kiuj uzis Gaussian Mixture Models (GMM) por plibonigi la kvaliton de parolsintezo, kvankam ne la rapidecon. Tamen, progresoj en profunda lernado (DL, maŝinlernada metodo) kaj artefarita inteligenteco (AI) rafinis la teknologion por produkti pli kredindajn kaj natursonajn konversaciojn. Parolsintezo estas ĉefe apogita per du profundaj neŭralaj retoj (DNN) teknologioj: tekst-al-parolado (TTS) kaj voĉkonverto (VC).

Teksto-al-parolado konvertas tekston al voĉo, dum VC povas transformi la voĉon de persono por imiti tiun de alia. Ĉi tiuj du DDN-oj ofte estas uzataj en virtualaj asistantoj, kaj povas krei pli nuancajn voĉojn kaj konversaciojn. Parolsintezo povas krei pli emfazajn robotajn flegistojn kaj pli inteligentajn ciferecajn hejmajn helpantojn.

Tamen, sinteza voĉa teknologio ankaŭ povas esti uzata por ciberatakoj. Ĉi tiuj fraŭdaj agadoj kopias la voĉpremojn de homoj (voĉaj specimenoj, kiuj estas ciferece konservitaj por servi kiel ilia biometria identigo) por infiltri sistemojn kaj aparatojn. Voĉa klonado ankaŭ povas trompi kolegojn doni siajn pasvortojn kaj aliajn sentemajn kompaniojn. Ŝtelitaj aŭ generitaj voĉoj ankaŭ povas esti uzataj en phishing atakoj kie homoj estas trompitaj sendi monon aŭ transdoni ĝin al specifaj bankkontoj.

Disrompa efiko

En 2021, esploristoj de la telekomunika kompanio Hitachi kaj la Japana Universitato de Tsukuba evoluigis AI-modelon kiu povas imiti homsimilan paroladon, inkluzive de malsamaj aŭd-bazitaj emociaj signoj. La parolado celas soni kiel profesia flegisto. Tiaj modeloj estas intencitaj por esti uzataj en robotoj aŭ aparatoj, kiuj povas oferti kunulecon, subtenon kaj direkton por individuoj, kiuj postulas ĝin. La teamo instruis sian AI-modelon unue nutrante ĝin per ekzemploj de emocia parolado.

Post tio, emocia rekonilo estas trejnita por identigi la senton, kaj parolsintezomodelo estas evoluigita por krei emocian paroladon. La emocia rekonilo helpas gvidi la parolsintezilon depende de kia sento aŭ "cela emocio" la uzanto atendas aŭ bezonas aŭdi. La esploristoj testis sian modelon sur maljunaj pacientoj, kaj partoprenantoj fariĝis pli energiaj dum la tago kiel rezulto. Aldone, la modelo povus trankviligi la pacientojn kaj trankviligi ilin por dormi nokte.

Dume, voĉsintezo ankaŭ estas ĉiam pli uzata en filmoj. Ekzemple, por krei la sintezan voĉrakonton por la 2022-datita Netflix doku-serio, The Andy Warhol Diaries, voĉgeneratora firmao Resemble AI utiligis 3 minutojn kaj 12 sekundojn de la originaj voĉregistraĵoj de Warhol de la 1970-aj jaroj kaj 80-aj jaroj. La teknologio de la firmao permesis al la voĉo de Warhol esti rekreita por deklami siajn proprajn vortojn de la taglibroj, kreante ses-partan mergan dokumentarion pri lia vivo.

La teamo prenis la generitan produktaĵon de la voĉo de Warhol de la AI kaj faris alĝustigojn por emocio kaj tonalto. Ili ankaŭ aldonis homsimilajn neperfektaĵojn referencante sonklipojn de alia parolanto. Resemble AI ripetas, ke antaŭ iu ajn voĉa klonado aŭ sinteza projekto, la kompanio ĉiam petas konsenton de la voĉposedantoj aŭ iliaj laŭleĝaj reprezentantoj. Por la doku-serio, la firmao akiris la permeson de la Andy Warhol Foundation.

Implicoj de parolsintezo

Pli larĝaj implicoj de parolsintezo povas inkludi:

Amaskomunikilaj kompanioj uzantaj parolsintezon por rekrei la voĉojn de forpasintaj famuloj por filmoj kaj dokumentarioj. Tamen, iuj spektantaroj povus trovi ĉi tion maletika kaj ofenda.
Pliigitaj okazaĵoj de voĉklonaj ciberkrimoj, precipe en la financa servo-industrio.
Vivaj portretfirmaoj uzante sintezan parolon por vivigi famajn pentraĵojn kaj historiajn figurojn. Ĉi tiu servo estas aparte alloga por muzeoj kaj la eduka sektoro.
Parolsintezo uzata en deepfalsaj videoj por disvastigi propagandon kaj malvere akuzi homojn, precipe ĵurnalistojn kaj aktivulojn.
Pli da noventreprenaj firmaoj koncentriĝantaj pri voĉklonado kaj sintezaj parolservoj, inkluzive de famuloj kaj influantoj, kiuj volas lui siajn voĉojn al markoj.
Plibonigita realismo en virtualaj asistantoj kaj interagaj ludoj per altnivela parolsintezo, plibonigante la sperton de uzanto sed kaŭzante zorgojn pri emocia alligiteco al AI.
Adopto de parolsintezo en aŭtomatigita klientservo, fluliniigante operaciojn sed eble kondukante al labormovo en la vokcentroindustrio.
Registaraj agentejoj utiligantaj parolsintezon por publikaj servaj anoncoj, ebligante multlingvan kaj akcent-specifan komunikadon sed postulante zorgeman superrigardon por malhelpi misuzon aŭ misinformadon.