Kuantumrun

KREDI I IMAZHIT:

iStock

Sinteza e të folurit: Robotët që më në fund mund të shprehin emocionet

Teknologjia e sintezës së të folurit po hap mundësi të reja për më shumë robotë ndërveprues.

Author:
Emri i autorit
Parashikimi Kuantumrun
Dhjetor 29, 2022

Përmbledhje e pasqyrës

Ndërsa fjalimi i krijuar nga makineritë ka qenë i përhapur për një kohë, vetëm nëpërmjet zhvillimeve në njohjen dhe gjenerimin e të folurit ai ka filluar të tingëllojë më pak robotik. Disa kompani po përdorin avancimet e sintezës së zërit dhe klonimit për të futur emocione (dmth. tonin) në fjalimin e krijuar nga makina. Implikimet afatgjata të sintezës së të folurit mund të përfshijnë rikrijimin e zërave të të famshëmve dhe përmbajtjen edhe më bindëse të falsifikimit të thellë.

Konteksti i sintezës së të folurit

Të folurit sintetik gjenerohet nga një burim jo-njerëzor (p.sh., një kompjuter) ndërsa rikrijohet tingulli i një zëri njerëzor. Kjo teknologji kishte ekzistuar që nga vitet 1930 kur inxhinieri akustik amerikan Homer Dudley ndërtoi vokoderin e parë (sintetizuesin e zërit). Gradualisht, filluan të shfaqen sisteme që përdorën Modelet Gaussian Mixture (GMM) për të përmirësuar cilësinë e sintezës së të folurit, megjithëse jo shpejtësinë. Sidoqoftë, përparimet në mësimin e thellë (DL, një metodë e mësimit të makinerive) dhe inteligjencën artificiale (AI) e kanë rafinuar teknologjinë për të prodhuar biseda më të besueshme dhe me tingull natyral. Sinteza e të folurit mbështetet kryesisht nga dy teknologji të rrjeteve nervore të thella (DNN): teksti në të folur (TTS) dhe konvertimi i zërit (VC).

Tekst-në-fjalë konverton tekstin në zë, ndërsa VC mund të transformojë zërin e një personi për të imituar zërin e një tjetri. Këto dy DDN përdoren shpesh në asistentë virtualë dhe mund të krijojnë zëra dhe biseda më të nuancuara. Sinteza e të folurit mund të krijojë kujdestarë më të theksuar robotësh dhe asistentë dixhitalë më të zgjuar në shtëpi.

Megjithatë, teknologjia sintetike e zërit mund të përdoret gjithashtu për sulme kibernetike. Këto aktivitete mashtruese kopjojnë gjurmët e zërit të njerëzve (mostrat e zërit që ruhen në mënyrë dixhitale për të shërbyer si identifikimi i tyre biometrik) për të depërtuar në sisteme dhe pajisje. Klonimi i zërit gjithashtu mund të mashtrojë kolegët që të japin fjalëkalimet e tyre dhe informacione të tjera të ndjeshme të kompanisë. Zërat e vjedhur ose të gjeneruar mund të përdoren gjithashtu në sulme phishing ku njerëzit mashtrohen për të dërguar para ose për t'i transferuar ato në llogari bankare specifike.

Ndikim shkatërrues

Në vitin 2021, hulumtuesit nga kompania e telekomunikacionit Hitachi dhe Universiteti japonez i Tsukuba zhvilluan një model të AI që mund të imitojë të folurit si njeriu, duke përfshirë shënues të ndryshëm emocionalë të bazuar në audio. Fjalimi ka për qëllim të tingëllojë si një kujdestar profesionist. Modele si ky synohen të përdoren në robotë ose pajisje që mund të ofrojnë shoqëri, mbështetje dhe drejtim për individët që e kërkojnë atë. Ekipi mësoi modelin e tij të AI duke e ushqyer fillimisht me shembuj të të folurit emocional.

Pas kësaj, një njohës i emocioneve trajnohet për të identifikuar ndjenjën dhe zhvillohet një model i sintezës së të folurit për të krijuar fjalimin emocional. Njohësi i emocioneve ndihmon në drejtimin e sintetizuesit të të folurit në varësi të ndjenjës ose "emocionit të synuar" që përdoruesi pret ose duhet të dëgjojë. Studiuesit testuan modelin e tyre te pacientët e moshuar dhe pjesëmarrësit u bënë më energjikë gjatë ditës si rezultat. Për më tepër, modelja mund t'i qetësonte pacientët dhe t'i qetësonte ata të flenë natën.

Ndërkohë, sinteza e zërit po përdoret gjithnjë e më shumë në filma. Për shembull, për të krijuar narrativën sintetike të zërit për serialin dokumentar të Netflix 2022, The Andy Warhol Diaries, firma e gjeneruesit të zërit Resemble AI përdori 3 minuta e 12 sekonda nga regjistrimet origjinale të zërit të Warhol nga vitet 1970 dhe 80. Teknologjia e firmës lejoi që zëri i Warhol të rikrijohej për të recituar fjalët e tij nga ditarët, duke krijuar një dokumentar gjithëpërfshirës me gjashtë pjesë mbi jetën e tij.

Ekipi mori prodhimin e gjeneruar të zërit të Warhol nga AI dhe bëri rregullime për emocionet dhe lartësinë. Ata gjithashtu shtuan papërsosmëritë e njeriut duke iu referuar klipeve audio të një altoparlanti tjetër. Resemble AI rithekson se përpara çdo projekti të klonimit ose sintezës së zërit, kompania kërkon gjithmonë pëlqimin nga pronarët e zërit ose përfaqësuesit e tyre ligjorë. Për serinë dokumentare, kompania mori lejen e Fondacionit Andy Warhol.

Implikimet e sintezës së të folurit

Implikimet më të gjera të sintezës së të folurit mund të përfshijnë:

Kompanitë mediatike që përdorin sintezën e të folurit për të rikrijuar zërat e të famshëmve të vdekur për filma dhe dokumentarë. Megjithatë, disa audienca mund ta shohin këtë joetike dhe zhgënjyese.
Rritja e incidenteve të krimeve kibernetike të klonimit të zërit, veçanërisht në industrinë e shërbimeve financiare.
Firmat e portreteve të drejtpërdrejta që përdorin fjalimin sintetik për të sjellë në jetë pikturat e famshme dhe figurat historike. Ky shërbim është veçanërisht tërheqës për muzetë dhe sektorin e arsimit.
Sinteza e të folurit përdoret në video të rreme për të përhapur propagandë dhe për të akuzuar në mënyrë të rreme njerëzit, veçanërisht gazetarët dhe aktivistët.
Më shumë firma fillestare që fokusohen në klonimin e zërit dhe shërbimet e të folurit sintetik, duke përfshirë të famshëm dhe influencues që duan t'ua japin zërin me qira markave.
Realizëm i përmirësuar në asistentët virtualë dhe lojërat ndërvepruese përmes sintezës së avancuar të të folurit, duke përmirësuar përvojën e përdoruesit, por duke ngritur shqetësime për lidhjen emocionale me AI.
Adoptimi i sintezës së të folurit në shërbimin e automatizuar të klientit, duke përmirësuar operacionet, por potencialisht duke çuar në zhvendosje të vendeve të punës në industrinë e qendrave të thirrjeve.
Agjencitë qeveritare përdorin sintezën e të folurit për njoftimet e shërbimit publik, duke mundësuar komunikim shumëgjuhësh dhe specifik për theksin, por që kërkojnë mbikëqyrje të kujdesshme për të parandaluar keqpërdorimin ose dezinformimin.