Synthesis lleferydd: Robotiaid sy'n gallu mynegi emosiynau o'r diwedd

CREDYD DELWEDD:
Credyd Delwedd
iStock

Synthesis lleferydd: Robotiaid sy'n gallu mynegi emosiynau o'r diwedd

ADEILADU AR GYFER DYFODOL YFORY

Bydd Platfform Tueddiadau Quantumrun yn rhoi'r mewnwelediadau, yr offer a'r gymuned i chi archwilio a ffynnu o dueddiadau'r dyfodol.

CYNNIG ARBENNIG

$5 Y MIS

Synthesis lleferydd: Robotiaid sy'n gallu mynegi emosiynau o'r diwedd

Testun is-bennawd
Mae'r dechnoleg synthesis lleferydd yn agor cyfleoedd newydd ar gyfer bots mwy rhyngweithiol.
    • Awdur:
    • enw awdur
      Rhagolwg Quantumrun
    • Rhagfyr 29, 2022

    Crynodeb mewnwelediad

    Er bod lleferydd a gynhyrchir gan beiriant wedi bod o gwmpas ers tro, dim ond trwy ddatblygiadau mewn adnabod lleferydd a chynhyrchu lleferydd y mae'n dechrau swnio'n llai robotig. Mae rhai cwmnïau'n defnyddio synthesis llais a chlonio datblygiadau i drwytho emosiynau (hy, tôn) i leferydd a gynhyrchir gan beiriant. Gallai goblygiadau hirdymor synthesis lleferydd gynnwys ail-greu lleisiau enwogion a chynnwys mwy argyhoeddiadol byth.

    Cyd-destun synthesis lleferydd

    Mae lleferydd synthetig yn cael ei gynhyrchu gan ffynhonnell nad yw'n ddynol (ee, cyfrifiadur) tra'n ail-greu sain llais dynol. Roedd y dechnoleg hon wedi bodoli ers y 1930au pan adeiladodd y peiriannydd acwstig Americanaidd Homer Dudley y vocoder cyntaf (syntheseisydd llais). Yn raddol, dechreuodd systemau ddod i'r amlwg a oedd yn defnyddio Modelau Cymysgedd Gaussian (GMM) i wella ansawdd synthesis lleferydd, er nad y cyflymder. Fodd bynnag, mae datblygiadau mewn dysgu dwfn (DL, dull dysgu peirianyddol) a deallusrwydd artiffisial (AI) wedi mireinio'r dechnoleg i gynhyrchu sgyrsiau mwy credadwy a naturiol. Cefnogir synthesis lleferydd yn bennaf gan dechnolegau dwy rwydwaith niwral dwfn (DNN): testun-i-leferydd (TTS) a throsi llais (VC). 

    Mae testun-i-leferydd yn trosi testun i lais, tra gall VC drawsnewid llais person i ddynwared llais rhywun arall. Defnyddir y ddau DDN hyn yn aml mewn cynorthwywyr rhithwir, a gallant greu lleisiau a sgyrsiau mwy cynnil. Gall synthesis lleferydd greu gofalwyr robot mwy pendant a chynorthwywyr cartref digidol craffach. 

    Fodd bynnag, gellir defnyddio technoleg llais synthetig hefyd ar gyfer ymosodiadau seiber. Mae'r gweithgareddau twyllodrus hyn yn copïo argraffiadau llais pobl (samplau llais sy'n cael eu storio'n ddigidol fel eu dull adnabod biometrig) i ymdreiddio i systemau a dyfeisiau. Gall clonio llais hefyd dwyllo cydweithwyr i roi eu cyfrineiriau a gwybodaeth cwmni sensitif arall. Gellir defnyddio lleisiau wedi'u dwyn neu eu cynhyrchu hefyd mewn ymosodiadau gwe-rwydo lle mae pobl yn cael eu twyllo i anfon arian neu ei drosglwyddo i gyfrifon banc penodol.

    Effaith aflonyddgar

    Yn 2021, datblygodd ymchwilwyr o'r cwmni telathrebu Hitachi a Phrifysgol Tsukuba Japan fodel AI a all ddynwared lleferydd tebyg i ddyn, gan gynnwys gwahanol farcwyr emosiynol sy'n seiliedig ar sain. Mae'r araith i fod i swnio fel gofalwr proffesiynol. Bwriedir i fodelau fel hyn gael eu defnyddio mewn robotiaid neu ddyfeisiau a all gynnig cwmnïaeth, cefnogaeth a chyfeiriad i unigolion sydd ei angen. Dysgodd y tîm ei fodel AI trwy ei fwydo'n gyntaf ag enghreifftiau o lefaru emosiynol.

    Ar ôl hynny, mae adnabyddwr emosiwn wedi'i hyfforddi i adnabod y teimlad, a datblygir model synthesis lleferydd i greu lleferydd emosiynol. Mae'r adnabyddydd emosiwn yn helpu i arwain y syntheseisydd lleferydd yn dibynnu ar ba deimlad neu "emosiwn targed" y mae'r defnyddiwr yn ei ddisgwyl neu angen ei glywed. Profodd yr ymchwilwyr eu model ar gleifion oedrannus, a daeth y cyfranogwyr yn fwy egnïol yn ystod y dydd o ganlyniad. Yn ogystal, gallai'r model dawelu'r cleifion a'u lleddfu i gysgu yn y nos.

    Yn y cyfamser, mae synthesis llais hefyd yn cael ei ddefnyddio fwyfwy mewn ffilmiau. Er enghraifft, i greu’r naratif llais synthetig ar gyfer cyfres ddogfen Netflix 2022, The Andy Warhol Diaries, cyflogodd y cwmni cynhyrchu llais Resemble AI 3 munud a 12 eiliad o recordiadau llais gwreiddiol Warhol o’r 1970au a’r 80au. Roedd technoleg y cwmni yn caniatáu i lais Warhol gael ei ail-greu i adrodd ei eiriau ei hun o'r dyddiaduron, gan greu rhaglen ddogfen drochol chwe rhan ar ei fywyd.

    Cymerodd y tîm yr allbwn a gynhyrchwyd o lais Warhol o'r AI a gwneud addasiadau ar gyfer emosiwn a thraw. Fe wnaethant hefyd ychwanegu amherffeithrwydd dynol trwy gyfeirio at glipiau sain o siaradwr arall. Mae Resemble AI yn ailadrodd, cyn unrhyw brosiect clonio llais neu synthesis, bod y cwmni bob amser yn gofyn am ganiatâd gan y perchnogion llais neu eu cynrychiolwyr cyfreithiol. Ar gyfer y gyfres ddogfen, cafodd y cwmni ganiatâd Sefydliad Andy Warhol.

    Goblygiadau synthesis lleferydd

    Gall goblygiadau ehangach synthesis lleferydd gynnwys: 

    • Cwmnïau cyfryngau yn defnyddio synthesis lleferydd i ail-greu lleisiau enwogion sydd wedi marw ar gyfer ffilmiau a rhaglenni dogfen. Fodd bynnag, efallai y bydd hyn yn anfoesegol ac yn annymunol i rai cynulleidfaoedd.
    • Mwy o achosion o seiberdroseddau clonio llais, yn enwedig yn y diwydiant gwasanaethau ariannol.
    • Cwmnïau portreadau byw yn defnyddio lleferydd synthetig i ddod â phaentiadau enwog a ffigurau hanesyddol yn fyw. Mae'r gwasanaeth hwn yn arbennig o ddeniadol i amgueddfeydd a'r sector addysg.
    • Synthesis lleferydd yn cael ei ddefnyddio mewn fideos ffug i ledaenu propaganda a chyhuddo pobl ar gam, yn enwedig newyddiadurwyr ac actifyddion.
    • Mwy o gwmnïau cychwynnol yn canolbwyntio ar glonio llais a gwasanaethau lleferydd synthetig, gan gynnwys enwogion a dylanwadwyr sydd am rentu eu lleisiau i frandiau.
    • Realaeth uwch mewn cynorthwywyr rhithwir a gemau rhyngweithiol trwy synthesis lleferydd uwch, gan wella profiad y defnyddiwr ond codi pryderon ynghylch ymlyniad emosiynol i AI.
    • Mabwysiadu synthesis lleferydd mewn gwasanaeth cwsmeriaid awtomataidd, symleiddio gweithrediadau ond o bosibl arwain at ddadleoli swyddi yn y diwydiant canolfannau galwadau.
    • Asiantaethau'r llywodraeth yn trosoli synthesis lleferydd ar gyfer cyhoeddiadau gwasanaeth cyhoeddus, gan alluogi cyfathrebu amlieithog ac acen-benodol ond sydd angen goruchwyliaeth ofalus i atal camddefnydd neu wybodaeth anghywir.

    Cwestiynau i'w hystyried

    • Beth yw manteision posibl eraill o fwy o bots sy'n swnio'n ddynol?
    • Sut arall y gall seiberdroseddwyr ddefnyddio synthesis lleferydd?

    Cyfeiriadau mewnwelediad

    Cyfeiriwyd at y cysylltiadau poblogaidd a sefydliadol canlynol ar gyfer y mewnwelediad hwn: