भाषण संश्लेषण: रोबोट जे शेवटी भावना व्यक्त करू शकतात

इमेज क्रेडिट:
प्रतिमा क्रेडिट
iStock

भाषण संश्लेषण: रोबोट जे शेवटी भावना व्यक्त करू शकतात

भाषण संश्लेषण: रोबोट जे शेवटी भावना व्यक्त करू शकतात

उपशीर्षक मजकूर
भाषण संश्लेषण तंत्रज्ञान अधिक परस्परसंवादी बॉट्ससाठी नवीन संधी उघडत आहे.
    • लेखक बद्दल:
    • लेखक नाव
      Quantumrun दूरदृष्टी
    • डिसेंबर 29, 2022

    अंतर्दृष्टी सारांश

    मशीन-व्युत्पन्न भाषण काही काळापासून चालू असताना, केवळ उच्चार ओळखण्याच्या आणि पिढीच्या विकासामुळे ते कमी रोबोटिक आवाज येऊ लागले आहे. काही कंपन्या आवाज संश्लेषण आणि क्लोनिंग प्रगती वापरून भावनांना (म्हणजे, टोन) मशीनद्वारे व्युत्पन्न केलेल्या भाषणात घालत आहेत. उच्चार संश्लेषणाच्या दीर्घकालीन परिणामांमध्ये प्रसिद्ध व्यक्तींचे आवाज पुन्हा तयार करणे आणि त्याहूनही अधिक खात्रीशीर डीपफेक सामग्रीचा समावेश असू शकतो.

    भाषण संश्लेषण संदर्भ

    मानवी आवाजाचा आवाज पुन्हा तयार करताना सिंथेटिक स्पीच हे मानवेतर स्त्रोताद्वारे (उदा. संगणक) तयार केले जाते. हे तंत्रज्ञान 1930 च्या दशकापासून अस्तित्वात होते जेव्हा अमेरिकन ध्वनिक अभियंता होमर डडले यांनी पहिले व्होकोडर (व्हॉइस सिंथेसायझर) तयार केले. हळूहळू, अशा प्रणाली उदयास येऊ लागल्या ज्याने स्पीच सिंथेसिसची गुणवत्ता सुधारण्यासाठी गॉसियन मिक्स्चर मॉडेल्स (जीएमएम) वापरल्या, जरी गती नाही. तथापि, सखोल शिक्षण (DL, एक मशीन लर्निंग पद्धत) आणि कृत्रिम बुद्धिमत्ता (AI) मधील प्रगतीने अधिक विश्वासार्ह आणि नैसर्गिक-ध्वनी संभाषणे तयार करण्यासाठी तंत्रज्ञान सुधारले आहे. स्पीच सिंथेसिस प्रामुख्याने दोन डीप न्यूरल नेटवर्क (DNN) तंत्रज्ञानाद्वारे समर्थित आहे: टेक्स्ट-टू-स्पीच (TTS) आणि व्हॉइस रूपांतरण (VC). 

    टेक्स्ट-टू-स्पीच मजकूराचे आवाजात रूपांतर करते, तर VC एखाद्या व्यक्तीच्या आवाजाचे रूपांतर दुसऱ्याच्या आवाजात करू शकतो. हे दोन DDN बर्‍याचदा व्हर्च्युअल असिस्टंटमध्ये वापरले जातात आणि ते अधिक सूक्ष्म आवाज आणि संभाषणे तयार करू शकतात. भाषण संश्लेषण अधिक प्रभावी रोबोट केअरगिव्हर्स आणि स्मार्ट डिजिटल होम असिस्टंट तयार करू शकते. 

    मात्र, सायबर हल्ल्यांसाठी सिंथेटिक व्हॉइस तंत्रज्ञानाचाही वापर केला जाऊ शकतो. या फसव्या अ‍ॅक्टिव्हिटीमध्ये लोकांच्या व्हॉइसप्रिंटची कॉपी केली जाते (आवाजाचे नमुने जे त्यांची बायोमेट्रिक ओळख म्हणून डिजिटलपणे साठवले जातात) प्रणाली आणि उपकरणांमध्ये घुसखोरी करतात. व्हॉइस क्लोनिंग सहकार्‍यांना त्यांचे पासवर्ड आणि इतर संवेदनशील कंपनी माहिती देण्यास फसवू शकते. चोरलेले किंवा व्युत्पन्न केलेले आवाज फिशिंग हल्ल्यांमध्ये देखील वापरले जाऊ शकतात जेथे लोकांना पैसे पाठवण्यात किंवा विशिष्ट बँक खात्यांमध्ये हस्तांतरित करण्यात फसवले जाते.

    व्यत्यय आणणारा प्रभाव

    2021 मध्ये, दूरसंचार कंपनी हिटाची आणि जपानच्या सुकुबा विद्यापीठातील संशोधकांनी विविध ऑडिओ-आधारित भावनिक मार्करसह मानवासारख्या भाषणाची नक्कल करू शकणारे एआय मॉडेल विकसित केले. भाषण व्यावसायिक काळजीवाहू सारखे आवाज अभिप्रेत आहे. यासारखे मॉडेल रोबोट्स किंवा उपकरणांमध्ये वापरले जाण्यासाठी आहेत जे आवश्यक असलेल्या व्यक्तींसाठी सहयोग, समर्थन आणि दिशा देऊ शकतात. संघाने त्याचे AI मॉडेल प्रथम त्याला भावनिक भाषणाची उदाहरणे देऊन शिकवले.

    त्यानंतर, भावना ओळखणाऱ्याला भावना ओळखण्यासाठी प्रशिक्षित केले जाते आणि भावनिक भाषण तयार करण्यासाठी भाषण संश्लेषण मॉडेल विकसित केले जाते. वापरकर्त्याला कोणती भावना किंवा "लक्ष्य भावना" अपेक्षित आहे किंवा ऐकण्याची आवश्यकता आहे यावर अवलंबून भावना ओळखणारा स्पीच सिंथेसायझरला मार्गदर्शन करण्यास मदत करतो. संशोधकांनी त्यांच्या मॉडेलची वृद्ध रुग्णांवर चाचणी केली आणि परिणामी सहभागी दिवसा अधिक उत्साही झाले. याव्यतिरिक्त, मॉडेल रुग्णांना शांत करू शकते आणि त्यांना रात्री झोपायला शांत करू शकते.

    दरम्यान, चित्रपटांमध्ये आवाज संश्लेषणाचा वापरही मोठ्या प्रमाणात होत आहे. उदाहरणार्थ, 2022 नेटफ्लिक्स डॉक्यु-सिरीजसाठी सिंथेटिक व्हॉईस नॅरेटिव्ह तयार करण्यासाठी, द अँडी वॉरहॉल डायरीज, व्हॉईस जनरेटर फर्म Resemble AI ने 3 आणि 12 च्या दशकातील वॉरहोलच्या मूळ व्हॉइस रेकॉर्डिंगसाठी 1970 मिनिटे आणि 80 सेकंदांचा वापर केला. फर्मच्या तंत्रज्ञानामुळे वॉरहोलचा आवाज त्याच्या जीवनावर सहा भागांचा इमर्सिव्ह डॉक्युमेंटरी तयार करून डायरीमधून त्याचे स्वतःचे शब्द पुन्हा पुन्हा तयार करण्याची परवानगी दिली.

    संघाने AI मधून वॉरहोलच्या आवाजाचे जनरेट केलेले आउटपुट घेतले आणि भावना आणि खेळपट्टीसाठी समायोजन केले. त्यांनी दुसऱ्या स्पीकरच्या ऑडिओ क्लिपचा संदर्भ देऊन मानवासारख्या अपूर्णता देखील जोडल्या. Resemble AI पुन्हा सांगते की कोणत्याही व्हॉइस क्लोनिंग किंवा संश्लेषण प्रकल्पापूर्वी, कंपनी नेहमी व्हॉइस मालक किंवा त्यांच्या कायदेशीर प्रतिनिधींकडून संमती मागते. दस्तऐवज-मालिकेसाठी, कंपनीने अँडी वॉरहॉल फाऊंडेशनची परवानगी घेतली.

    भाषण संश्लेषणाचे परिणाम

    भाषण संश्लेषणाच्या विस्तृत परिणामांमध्ये हे समाविष्ट असू शकते: 

    • मीडिया कंपन्या चित्रपट आणि माहितीपटांसाठी मृत सेलिब्रिटींचे आवाज पुन्हा तयार करण्यासाठी स्पीच सिंथेसिस वापरतात. तथापि, काही प्रेक्षकांना हे अनैतिक आणि अपमानास्पद वाटू शकते.
    • व्हॉईस क्लोनिंग सायबर गुन्ह्यांच्या वाढत्या घटना, विशेषतः वित्तीय सेवा उद्योगात.
    • प्रसिद्ध चित्रे आणि ऐतिहासिक व्यक्तिरेखा जिवंत करण्यासाठी सिंथेटिक स्पीच वापरून लाईव्ह पोर्ट्रेट फर्म. ही सेवा विशेषतः संग्रहालये आणि शिक्षण क्षेत्रासाठी आकर्षक आहे.
    • प्रचार प्रसार करण्यासाठी आणि लोकांवर, विशेषतः पत्रकार आणि कार्यकर्त्यांवर खोटे आरोप करण्यासाठी डीपफेक व्हिडिओंमध्ये स्पीच सिंथेसिसचा वापर केला जात आहे.
    • व्हॉईस क्लोनिंग आणि सिंथेटिक स्पीच सेवांवर लक्ष केंद्रित करणार्‍या अधिक स्टार्टअप कंपन्या, ज्यात सेलिब्रिटी आणि प्रभावकार यांचा समावेश आहे ज्यांना त्यांचे आवाज ब्रँडला भाड्याने द्यायचे आहेत.
    • प्रगत भाषण संश्लेषणाद्वारे आभासी सहाय्यक आणि परस्परसंवादी गेममध्ये वर्धित वास्तववाद, वापरकर्त्याचा अनुभव सुधारतो परंतु AI शी भावनिक संलग्नतेबद्दल चिंता वाढवतो.
    • स्वयंचलित ग्राहक सेवेमध्ये भाषण संश्लेषणाचा अवलंब करणे, ऑपरेशन्स सुव्यवस्थित करणे परंतु कॉल सेंटर उद्योगात नोकरी विस्थापनास कारणीभूत ठरते.
    • सरकारी एजन्सी सार्वजनिक सेवा घोषणांसाठी उच्चार संश्लेषणाचा लाभ घेतात, बहुभाषिक आणि उच्चार-विशिष्ट संप्रेषण सक्षम करतात परंतु गैरवापर किंवा चुकीची माहिती टाळण्यासाठी काळजीपूर्वक निरीक्षण आवश्यक असते.

    विचारात घेण्यासारखे प्रश्न

    • अधिक मानवी आवाज करणाऱ्या बॉट्सचे इतर संभाव्य फायदे काय आहेत?
    • सायबर गुन्हेगार भाषण संश्लेषण कसे वापरू शकतात?

    अंतर्दृष्टी संदर्भ

    या अंतर्दृष्टीसाठी खालील लोकप्रिय आणि संस्थात्मक दुवे संदर्भित केले गेले: