క్వాంటమ్రన్

చిత్రం క్రెడిట్:

iStock

స్పీచ్ సింథసిస్: చివరకు భావోద్వేగాలను వ్యక్తీకరించగల రోబోట్లు

స్పీచ్ సింథసిస్ టెక్నాలజీ మరింత ఇంటరాక్టివ్ బాట్‌ల కోసం కొత్త అవకాశాలను తెరుస్తోంది.

రచయిత గురించి:
రచయిత పేరు
క్వాంటమ్రన్ దూరదృష్టి
డిసెంబర్ 29, 2022

అంతర్దృష్టి సారాంశం

మెషీన్-ఉత్పత్తి ప్రసంగం కొంతకాలంగా ఉన్నప్పటికీ, ప్రసంగ గుర్తింపు మరియు తరంలో అభివృద్ధి ద్వారా మాత్రమే అది తక్కువ రోబోటిక్ ధ్వనిని ప్రారంభించింది. కొన్ని కంపెనీలు మెషీన్-ఉత్పత్తి ప్రసంగంలో భావోద్వేగాలను (అంటే, టోన్) నింపడానికి వాయిస్ సింథసిస్ మరియు క్లోనింగ్ పురోగతిని ఉపయోగిస్తున్నాయి. స్పీచ్ సింథసిస్ యొక్క దీర్ఘకాలిక చిక్కులు సెలబ్రిటీ వాయిస్‌లను పునఃసృష్టించడం మరియు మరింత నమ్మదగిన డీప్‌ఫేక్ కంటెంట్‌ని కలిగి ఉంటాయి.

ప్రసంగ సంశ్లేషణ సందర్భం

మానవ స్వరం యొక్క ధ్వనిని పునఃసృష్టించేటప్పుడు మానవేతర మూలం (ఉదా, కంప్యూటర్) ద్వారా సింథటిక్ ప్రసంగం ఉత్పన్నమవుతుంది. అమెరికన్ అకౌస్టిక్ ఇంజనీర్ హోమర్ డడ్లీ మొదటి వోకోడర్ (వాయిస్ సింథసైజర్)ను రూపొందించినప్పుడు 1930ల నుండి ఈ సాంకేతికత ఉనికిలో ఉంది. క్రమంగా, స్పీచ్ సింథసిస్ నాణ్యతను మెరుగుపరచడానికి గాస్సియన్ మిక్స్చర్ మోడల్స్ (GMM)ని ఉపయోగించే వ్యవస్థలు పుట్టుకొచ్చాయి, అయితే వేగం కాదు. అయినప్పటికీ, డీప్ లెర్నింగ్ (DL, మెషిన్ లెర్నింగ్ మెథడ్) మరియు ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ (AI)లో పురోగతి మరింత నమ్మదగిన మరియు సహజంగా ధ్వనించే సంభాషణలను రూపొందించడానికి సాంకేతికతను మెరుగుపరిచింది. స్పీచ్ సింథసిస్ ప్రాథమికంగా రెండు డీప్ న్యూరల్ నెట్‌వర్క్‌ల (DNN) టెక్నాలజీల ద్వారా మద్దతు ఇస్తుంది: టెక్స్ట్-టు-స్పీచ్ (TTS) మరియు వాయిస్ కన్వర్షన్ (VC).

టెక్స్ట్-టు-స్పీచ్ టెక్స్ట్‌ను వాయిస్‌గా మారుస్తుంది, అయితే VC ఒక వ్యక్తి యొక్క వాయిస్‌ని మరొకరి వాయిస్‌ని అనుకరించేలా మార్చగలదు. ఈ రెండు DDNలు తరచుగా వర్చువల్ అసిస్టెంట్లలో ఉపయోగించబడతాయి మరియు మరింత సూక్ష్మమైన స్వరాలు మరియు సంభాషణలను సృష్టించగలవు. స్పీచ్ సింథసిస్ మరింత నొక్కిచెప్పే రోబోట్ కేర్‌గివర్‌లను మరియు స్మార్ట్ డిజిటల్ హోమ్ అసిస్టెంట్‌లను సృష్టించగలదు.

అయితే సైబర్ దాడులకు కూడా సింథటిక్ వాయిస్ టెక్నాలజీని ఉపయోగించవచ్చు. ఈ మోసపూరిత కార్యకలాపాలు వ్యవస్థలు మరియు పరికరాల్లోకి చొరబడేందుకు వ్యక్తుల వాయిస్‌ప్రింట్‌లను (వారి బయోమెట్రిక్ గుర్తింపుగా అందించడానికి డిజిటల్‌గా నిల్వ చేయబడిన వాయిస్ నమూనాలు) కాపీ చేస్తాయి. వాయిస్ క్లోనింగ్ సహోద్యోగులను వారి పాస్‌వర్డ్‌లు మరియు ఇతర సున్నితమైన కంపెనీ సమాచారాన్ని ఇవ్వడంలో మోసం చేస్తుంది. దొంగిలించబడిన లేదా రూపొందించబడిన వాయిస్‌లు ఫిషింగ్ దాడులలో కూడా ఉపయోగించబడతాయి, ఇక్కడ వ్యక్తులు డబ్బు పంపడానికి లేదా నిర్దిష్ట బ్యాంక్ ఖాతాలకు బదిలీ చేయడానికి మోసగించబడతారు.

విఘాతం కలిగించే ప్రభావం

2021లో, టెలికాం కంపెనీ హిటాచీ మరియు జపాన్‌లోని సుకుబా విశ్వవిద్యాలయం పరిశోధకులు వివిధ ఆడియో-ఆధారిత భావోద్వేగ గుర్తులతో సహా మానవ-వంటి ప్రసంగాన్ని అనుకరించే AI మోడల్‌ను అభివృద్ధి చేశారు. ప్రసంగం వృత్తిపరమైన సంరక్షకునిలా ధ్వనిస్తుంది. ఇలాంటి మోడల్‌లు రోబోట్‌లు లేదా పరికరాలలో ఉపయోగించేందుకు ఉద్దేశించబడ్డాయి, అవి అవసరమైన వ్యక్తుల కోసం సాహచర్యం, మద్దతు మరియు దిశను అందించవచ్చు. బృందం దాని AI మోడల్‌ను మొదట భావోద్వేగ ప్రసంగానికి ఉదాహరణలతో అందించడం ద్వారా నేర్పింది.

ఆ తర్వాత, భావాన్ని గుర్తించడానికి ఒక ఎమోషన్ రికగ్నకర్ శిక్షణ పొందుతుంది మరియు భావోద్వేగ ప్రసంగాన్ని రూపొందించడానికి స్పీచ్ సింథసిస్ మోడల్ అభివృద్ధి చేయబడింది. ఎమోషన్ రికగ్నకర్ అనేది వినియోగదారు ఆశించే లేదా వినాల్సిన అనుభూతి లేదా “టార్గెట్ ఎమోషన్” ఆధారంగా స్పీచ్ సింథసైజర్‌కు మార్గనిర్దేశం చేయడంలో సహాయపడుతుంది. పరిశోధకులు వృద్ధ రోగులపై వారి నమూనాను పరీక్షించారు మరియు ఫలితంగా పాల్గొనేవారు పగటిపూట మరింత శక్తివంతం అయ్యారు. అదనంగా, మోడల్ రోగులను శాంతింపజేస్తుంది మరియు రాత్రి నిద్రపోయేలా చేస్తుంది.

ఇదిలా ఉంటే వాయిస్ సింథసిస్ కూడా సినిమాల్లో ఎక్కువగా వాడుతున్నారు. ఉదాహరణకు, 2022 నెట్‌ఫ్లిక్స్ డాక్యు-సిరీస్, ది ఆండీ వార్హోల్ డైరీస్ కోసం సింథటిక్ వాయిస్ కథనాన్ని రూపొందించడానికి, వాయిస్ జనరేటర్ సంస్థ రిసెంబుల్ AI 3లు మరియు 12ల నుండి 1970 నిమిషాల 80 సెకన్ల వార్హోల్ యొక్క అసలు వాయిస్ రికార్డింగ్‌లను ఉపయోగించింది. సంస్థ యొక్క సాంకేతికత వార్హోల్ యొక్క స్వరాన్ని డైరీల నుండి అతని స్వంత పదాలను పఠించడానికి వీలు కల్పించింది, అతని జీవితంపై ఆరు-భాగాల లీనమయ్యే డాక్యుమెంటరీని రూపొందించింది.

బృందం AI నుండి వార్హోల్ వాయిస్ యొక్క ఉత్పాదక అవుట్‌పుట్‌ను తీసుకుంది మరియు భావోద్వేగం మరియు పిచ్ కోసం సర్దుబాట్లు చేసింది. వారు మరొక స్పీకర్ యొక్క ఆడియో క్లిప్‌లను సూచించడం ద్వారా మానవ-వంటి లోపాలను కూడా జోడించారు. ఏదైనా వాయిస్ క్లోనింగ్ లేదా సింథసిస్ ప్రాజెక్ట్‌కు ముందు, కంపెనీ ఎల్లప్పుడూ వాయిస్ ఓనర్‌లు లేదా వారి చట్టపరమైన ప్రతినిధుల నుండి సమ్మతి కోసం అడుగుతుందని రిసెంబుల్ AI పునరుద్ఘాటిస్తుంది. డాక్యుమెంట్-సిరీస్ కోసం, కంపెనీ ఆండీ వార్హోల్ ఫౌండేషన్ అనుమతిని పొందింది.

స్పీచ్ సింథసిస్ యొక్క చిక్కులు

ప్రసంగ సంశ్లేషణ యొక్క విస్తృత చిక్కులు వీటిని కలిగి ఉండవచ్చు:

చలనచిత్రాలు మరియు డాక్యుమెంటరీల కోసం మరణించిన ప్రముఖుల స్వరాలను తిరిగి రూపొందించడానికి మీడియా కంపెనీలు స్పీచ్ సింథసిస్‌ను ఉపయోగిస్తాయి. అయినప్పటికీ, కొంతమంది ప్రేక్షకులు దీనిని అనైతికంగా మరియు తప్పుగా భావించవచ్చు.
వాయిస్ క్లోనింగ్ సైబర్ క్రైమ్‌ల సంఘటనలు, ముఖ్యంగా ఆర్థిక సేవల పరిశ్రమలో పెరిగాయి.
ప్రసిద్ధ పెయింటింగ్‌లు మరియు చారిత్రక వ్యక్తులకు జీవం పోయడానికి సింథటిక్ ప్రసంగాన్ని ఉపయోగించే లైవ్ పోర్ట్రెయిట్ సంస్థలు. ఈ సేవ మ్యూజియంలు మరియు విద్యా రంగానికి ప్రత్యేకంగా ఆకర్షణీయంగా ఉంటుంది.
స్పీచ్ సింథసిస్ అనేది డీప్‌ఫేక్ వీడియోలలో ప్రచారం చేయడానికి మరియు ప్రజలను, ముఖ్యంగా జర్నలిస్టులు మరియు కార్యకర్తలపై తప్పుడు ఆరోపణలు చేయడానికి ఉపయోగించబడుతుంది.
బ్రాండ్‌లకు తమ వాయిస్‌లను అద్దెకు ఇవ్వాలనుకునే ప్రముఖులు మరియు ఇన్‌ఫ్లుయెన్సర్‌లతో సహా వాయిస్ క్లోనింగ్ మరియు సింథటిక్ స్పీచ్ సేవలపై దృష్టి సారించే మరిన్ని స్టార్టప్ సంస్థలు.
అధునాతన స్పీచ్ సింథసిస్ ద్వారా వర్చువల్ అసిస్టెంట్‌లు మరియు ఇంటరాక్టివ్ గేమ్‌లలో మెరుగైన వాస్తవికత, వినియోగదారు అనుభవాన్ని మెరుగుపరచడం కానీ AIకి భావోద్వేగ అనుబంధంపై ఆందోళనలు పెంచడం.
స్వయంచాలక కస్టమర్ సేవలో ప్రసంగ సంశ్లేషణను స్వీకరించడం, కార్యకలాపాలను క్రమబద్ధీకరించడం కానీ కాల్ సెంటర్ పరిశ్రమలో ఉద్యోగ స్థానభ్రంశంకు దారితీయవచ్చు.
ప్రభుత్వ ఏజెన్సీలు ప్రజా సేవా ప్రకటనల కోసం ప్రసంగ సంశ్లేషణను ప్రభావితం చేస్తాయి, బహుభాషా మరియు ఉచ్ఛారణ-నిర్దిష్ట కమ్యూనికేషన్‌ను ప్రారంభిస్తాయి, అయితే దుర్వినియోగం లేదా తప్పుడు సమాచారాన్ని నిరోధించడానికి జాగ్రత్తగా పర్యవేక్షణ అవసరం.