Quantumrun

CRÈDIT DE LA IMATGE:

iStock

Síntesi de la parla: Robots que finalment poden expressar emocions

La tecnologia de síntesi de veu està obrint noves oportunitats per a robots més interactius.

autor:
nom de l'autor
Previsió de Quantumrun
Desembre 29, 2022

Resum d'informació

Tot i que la parla generada per màquina fa temps que existeix, només a través dels desenvolupaments en el reconeixement i la generació de la parla comença a sonar menys robòtica. Algunes empreses estan utilitzant la síntesi de veu i els avenços de clonació per infondre emocions (és a dir, el to) a la parla generada per màquina. Les implicacions a llarg termini de la síntesi de la parla podrien incloure la recreació de veus de celebritats i contingut deepfake encara més convincent.

Context de síntesi de la parla

La parla sintètica és generada per una font no humana (per exemple, un ordinador) mentre es recrea el so d'una veu humana. Aquesta tecnologia existia des de la dècada de 1930 quan l'enginyer acústic nord-americà Homer Dudley va construir el primer vocoder (sintetitzador de veu). A poc a poc, van començar a sorgir sistemes que utilitzaven els models de mescles gaussianes (GMM) per millorar la qualitat de la síntesi de la parla, encara que no la velocitat. Tanmateix, els avenços en l'aprenentatge profund (DL, un mètode d'aprenentatge automàtic) i la intel·ligència artificial (IA) han perfeccionat la tecnologia per produir converses més creïbles i naturals. La síntesi de veu és compatible principalment amb dues tecnologies de xarxes neuronals profundes (DNN): text-to-speech (TTS) i conversió de veu (VC).

El text a veu converteix el text en veu, mentre que VC pot transformar la veu d'una persona per imitar la d'una altra. Aquests dos DDN s'utilitzen sovint als assistents virtuals i poden crear veus i converses més matisades. La síntesi de veu pot crear cuidadors de robots més emfàtics i assistents digitals a la llar més intel·ligents.

Tanmateix, la tecnologia de veu sintètica també es pot utilitzar per als ciberatacs. Aquestes activitats fraudulentes copien les empremtes de veu de les persones (mostres de veu que s'emmagatzemen digitalment per servir com a identificació biomètrica) per infiltrar-se en sistemes i dispositius. La clonació de veu també pot enganyar els companys perquè donin les seves contrasenyes i altra informació sensible de l'empresa. Les veus robades o generades també es poden utilitzar en atacs de pesca en què les persones són enganyades perquè enviïn diners o els transfereixin a comptes bancaris específics.

Impacte disruptiu

El 2021, investigadors de l'empresa de telecomunicacions Hitachi i de la Universitat japonesa de Tsukuba van desenvolupar un model d'IA que pot imitar la parla humana, incloent diferents marcadors emocionals basats en àudio. El discurs està pensat per sonar com un cuidador professional. Models com aquest estan pensats per ser utilitzats en robots o dispositius que poden oferir companyia, suport i direcció per a les persones que ho necessitin. L'equip va ensenyar el seu model d'IA alimentant-lo primer amb exemples de parla emocional.

Després d'això, s'entrena un reconeixedor d'emocions per identificar el sentiment i es desenvolupa un model de síntesi de parla per crear un discurs emocional. El reconeixement d'emocions ajuda a guiar el sintetitzador de veu en funció del sentiment o "emoció objectiu" que l'usuari espera o necessita sentir. Els investigadors van provar el seu model en pacients grans i, com a resultat, els participants es van tornar més energètics durant el dia. A més, el model podria calmar els pacients i calmar-los per dormir a la nit.

Mentrestant, la síntesi de veu també s'utilitza cada cop més a les pel·lícules. Per exemple, per crear la narració de veu sintètica per a la sèrie documental de Netflix del 2022, The Andy Warhol Diaries, l'empresa generadora de veu Resemble AI va emprar 3 minuts i 12 segons dels enregistraments de veu originals de Warhol dels anys 1970 i 80. La tecnologia de la firma va permetre recrear la veu de Warhol per recitar les seves pròpies paraules dels diaris, creant un documental immersiu de sis parts sobre la seva vida.

L'equip va prendre la sortida generada de la veu de Warhol de la IA i va fer ajustos per a l'emoció i el to. També van afegir imperfeccions semblants a les humanes fent referència a clips d'àudio d'un altre altaveu. Resemble AI reitera que abans de qualsevol projecte de clonació o síntesi de veu, l'empresa sempre demana el consentiment dels propietaris de la veu o dels seus representants legals. Per a la sèrie documental, la companyia va obtenir el permís de la Fundació Andy Warhol.

Implicacions de la síntesi de la parla

Les implicacions més àmplies de la síntesi de la parla poden incloure:

Empreses de mitjans que utilitzen la síntesi de veu per recrear les veus de les celebritats mortes per a pel·lícules i documentals. Tanmateix, alguns públics poden trobar-ho poc ètic i ofensiu.
Augment dels incidents de ciberdelictes de clonació de veu, especialment al sector dels serveis financers.
Empreses de retrats en directe que utilitzen la parla sintètica per donar vida a quadres famosos i personatges històrics. Aquest servei és especialment atractiu per als museus i el sector educatiu.
La síntesi de veu s'utilitza en vídeos deepfake per difondre propaganda i acusar falsament la gent, especialment periodistes i activistes.
Més empreses emergents que se centren en la clonació de veu i els serveis de parla sintètica, incloses celebritats i influencers que volen llogar la seva veu a les marques.
Realisme millorat en assistents virtuals i jocs interactius mitjançant la síntesi de parla avançada, millorant l'experiència de l'usuari però generant preocupacions sobre l'afecció emocional a la IA.
Adopció de la síntesi de veu en l'atenció al client automatitzada, racionalitzant les operacions, però que pot provocar un desplaçament de llocs de treball a la indústria del centre de trucades.
Les agències governamentals aprofiten la síntesi de veu per als anuncis de servei públic, permetent una comunicació multilingüe i específica de l'accent, però requereixen una supervisió acurada per evitar l'ús indegut o la desinformació.