Beszédszintézis: Robotok, amelyek végre képesek kifejezni érzelmeiket

KÉP HITEL:
Kép hitel
iStock

Beszédszintézis: Robotok, amelyek végre képesek kifejezni érzelmeiket

Beszédszintézis: Robotok, amelyek végre képesek kifejezni érzelmeiket

Alcím szövege
A beszédszintézis technológia új lehetőségeket nyit az interaktívabb robotok számára.
    • Szerző:
    • Szerző neve
      Quantumrun Foresight
    • December 29, 2022

    Insight összefoglaló

    Míg a géppel generált beszéd már egy ideje létezik, csak a beszédfelismerés és -generálás fejlődése révén kezd kevésbé robotikusan hangzani. Egyes vállalatok hangszintézis és klónozási fejlesztéseket alkalmaznak, hogy érzelmeket (azaz hangszínt) a gép által generált beszédbe öntsenek. A beszédszintézis hosszú távú következményei közé tartozhat a hírességek hangjainak újraalkotása és a még meggyőzőbb mélyhamisítás.

    Beszédszintézis kontextus

    A szintetikus beszédet nem emberi forrás (pl. számítógép) állítja elő, miközben újrateremti az emberi hang hangját. Ez a technológia az 1930-as évek óta létezett, amikor az amerikai akusztikai mérnök, Homer Dudley megkonstruálta az első vokódert (hangszintetizátort). Fokozatosan kezdtek megjelenni olyan rendszerek, amelyek Gaussian Mixture Modell (GMM) segítségével javították a beszédszintézis minőségét, bár nem a sebességet. A mély tanulás (DL, egy gépi tanulási módszer) és a mesterséges intelligencia (AI) fejlődése azonban finomította a technológiát, hogy hihetőbb és természetesebb hangzású beszélgetéseket hozzon létre. A beszédszintézist elsősorban két mély neurális hálózat (DNN) technológia támogatja: text-to-speech (TTS) és hangkonverzió (VC). 

    A szövegfelolvasó a szöveget hanggá alakítja, míg a VC képes átalakítani egy személy hangját, hogy utánozza a másikét. Ezt a két DDN-t gyakran használják virtuális asszisztensekben, és árnyaltabb hangokat és beszélgetéseket hozhatnak létre. A beszédszintézis hangsúlyosabb robotgondozókat és intelligensebb digitális otthoni asszisztenseket hozhat létre. 

    A szintetikus hangtechnológia azonban kibertámadásokhoz is használható. Ezek a csaló tevékenységek az emberek hanglenyomatait (a biometrikus azonosítás céljára digitálisan tárolt hangmintákat) másolják a rendszerekbe és eszközökbe. A hangklónozás megtévesztheti a kollégákat, hogy megadják jelszavaikat és egyéb érzékeny vállalati adataikat. Az ellopott vagy generált hangok adathalász támadásokban is felhasználhatók, amikor az embereket ráveszik arra, hogy pénzt küldjenek vagy utaljanak át meghatározott bankszámlákra.

    Bomlasztó hatás

    2021-ben a Hitachi távközlési vállalat és a japán Tsukuba Egyetem kutatói kifejlesztettek egy mesterséges intelligencia-modellt, amely képes utánozni az emberi beszédet, beleértve a különböző hangalapú érzelmi markereket. A beszéd úgy szól, mint egy profi gondozó. Az ehhez hasonló modelleket olyan robotokban vagy eszközökben való használatra tervezték, amelyek társaságot, támogatást és iránymutatást kínálhatnak azoknak, akiknek erre szükségük van. A csapat úgy tanította meg a mesterséges intelligencia modelljét, hogy először az érzelmi beszéd példáival látta el.

    Ezt követően egy érzelemfelismerőt képeznek ki az érzés azonosítására, és egy beszédszintézis modellt dolgoznak ki az érzelmi beszéd létrehozására. Az érzelemfelismerő segít irányítani a beszédszintetizátort attól függően, hogy a felhasználó milyen érzést vagy „célérzelmet” vár, vagy hallania kell. A kutatók idős betegeken tesztelték modelljüket, és ennek eredményeként a résztvevők napközben energikusabbá váltak. Ezenkívül a modell megnyugtatja a betegeket, és megnyugtatja őket éjszaka.

    Eközben a hangszintézist is egyre gyakrabban alkalmazzák a filmekben. Például a 2022-es The Andy Warhol Diaries című Netflix-dokumentumsorozat szintetikus hangos narratívájának elkészítéséhez a Resemble AI hanggenerátor cég 3 perc 12 másodpercet használt Warhol eredeti hangfelvételeiből az 1970-es és 80-as évekből. A cég technológiája lehetővé tette Warhol hangjának újrateremtését, hogy elmondja saját szavait a naplókból, így hatrészes magával ragadó dokumentumfilm készült az életéről.

    A csapat átvette Warhol hangjának generált kimenetét az AI-ból, és módosította az érzelmeket és a hangmagasságot. Emberszerű tökéletlenségeket is hozzáadtak egy másik hangszóró hangfelvételeire való hivatkozással. A Resemble AI megismétli, hogy minden hangklónozási vagy szintézisprojekt előtt a vállalat mindig beleegyezést kér a hangtulajdonosoktól vagy jogi képviselőiktől. A dokumentumsorozathoz a cég megszerezte az Andy Warhol Alapítvány engedélyét.

    A beszédszintézis következményei

    A beszédszintézis tágabb vonatkozásai a következők lehetnek: 

    • Médiavállalatok, amelyek beszédszintézist alkalmaznak az elhunyt hírességek hangjának újraalkotására filmek és dokumentumfilmek számára. Néhány közönség azonban ezt etikátlannak és visszataszítónak találhatja.
    • A hangklónozással kapcsolatos kiberbűnözések számának növekedése, különösen a pénzügyi szolgáltatási ágazatban.
    • Élő portrécégek szintetikus beszéd segítségével híres festmények és történelmi személyek életre keltésére. Ez a szolgáltatás különösen vonzó a múzeumok és az oktatási szektor számára.
    • A mélyhamisított videókban beszédszintézist használnak propaganda terjesztésére és emberek, különösen újságírók és aktivisták hamis vádjára.
    • Több induló cég, amely a hangklónozásra és a szintetikus beszédszolgáltatásokra összpontosít, beleértve azokat a hírességeket és influencereket, akik hangjukat szeretnék bérbe adni márkáknak.
    • Fokozott valósághűség a virtuális asszisztensekben és az interaktív játékokban a fejlett beszédszintézis révén, javítva a felhasználói élményt, de aggályokat vetve fel az AI-hoz való érzelmi kötődés miatt.
    • A beszédszintézis alkalmazása az automatizált ügyfélszolgálatban, ésszerűsíti a műveleteket, de potenciálisan munkahelyek kiszorulásához vezethet a call center iparágban.
    • Kormányzati szervek, amelyek beszédszintézist alkalmaznak a közszolgálati közleményekhez, lehetővé téve a többnyelvű és akcentus-specifikus kommunikációt, de gondos felügyeletet igényelnek a visszaélések vagy félretájékoztatás elkerülése érdekében.

    Megfontolandó kérdések

    • Milyen további lehetséges előnyökkel járhat az emberibb hangzású robot?
    • Hogyan használhatják még a kiberbűnözők a beszédszintézist?

    Insight hivatkozások

    A következő népszerű és intézményi hivatkozásokra hivatkoztunk ehhez a betekintéshez: