பேச்சு தொகுப்பு: இறுதியாக உணர்ச்சிகளை வெளிப்படுத்தக்கூடிய ரோபோக்கள்

பட கடன்:
பட கடன்
கசய்துள்ைது

பேச்சு தொகுப்பு: இறுதியாக உணர்ச்சிகளை வெளிப்படுத்தக்கூடிய ரோபோக்கள்

பேச்சு தொகுப்பு: இறுதியாக உணர்ச்சிகளை வெளிப்படுத்தக்கூடிய ரோபோக்கள்

உபதலைப்பு உரை
பேச்சு தொகுப்பு தொழில்நுட்பம், மேலும் ஊடாடும் போட்களுக்கான புதிய வாய்ப்புகளைத் திறக்கிறது.
    • ஆசிரியர் பற்றி:
    • ஆசிரியர் பெயர்
      குவாண்டம்ரன் தொலைநோக்கு
    • டிசம்பர் 29, 2022

    நுண்ணறிவு சுருக்கம்

    இயந்திரத்தால் உருவாக்கப்பட்ட பேச்சு சிறிது காலமாக இருந்தாலும், பேச்சு அங்கீகாரம் மற்றும் தலைமுறையின் வளர்ச்சியின் மூலம் மட்டுமே அது குறைந்த ரோபோ ஒலிக்கத் தொடங்குகிறது. சில நிறுவனங்கள் குரல் தொகுப்பு மற்றும் குளோனிங் முன்னேற்றங்களைப் பயன்படுத்தி உணர்ச்சிகளை (அதாவது தொனி) இயந்திரத்தால் உருவாக்கப்பட்ட பேச்சில் செலுத்துகின்றன. பேச்சுத் தொகுப்பின் நீண்ட கால தாக்கங்கள், பிரபலங்களின் குரல்களை மீண்டும் உருவாக்குவது மற்றும் இன்னும் உறுதியான ஆழமான உள்ளடக்கம் ஆகியவை அடங்கும்.

    பேச்சு தொகுப்பு சூழல்

    மனித குரலின் ஒலியை மீண்டும் உருவாக்கும் போது செயற்கை பேச்சு மனிதரல்லாத மூலத்தால் (எ.கா. கணினி) உருவாக்கப்படுகிறது. இந்த தொழில்நுட்பம் 1930களில் இருந்து அமெரிக்க ஒலியியல் பொறியாளர் ஹோமர் டட்லி முதல் வோகோடரை (வாய்ஸ் சின்தசைசர்) உருவாக்கினார். படிப்படியாக, வேகம் இல்லாவிட்டாலும், பேச்சுத் தொகுப்பின் தரத்தை மேம்படுத்த காஸியன் கலவை மாதிரிகள் (ஜிஎம்எம்) பயன்படுத்தும் அமைப்புகள் வெளிவரத் தொடங்கின. இருப்பினும், ஆழ்ந்த கற்றல் (DL, ஒரு இயந்திர கற்றல் முறை) மற்றும் செயற்கை நுண்ணறிவு (AI) ஆகியவற்றில் ஏற்பட்ட முன்னேற்றங்கள், மேலும் நம்பக்கூடிய மற்றும் இயற்கையான-ஒலி உரையாடல்களை உருவாக்க தொழில்நுட்பத்தை மேம்படுத்தியுள்ளன. பேச்சுத் தொகுப்பு முதன்மையாக இரண்டு ஆழமான நரம்பியல் நெட்வொர்க்குகள் (DNN) தொழில்நுட்பங்களால் ஆதரிக்கப்படுகிறது: உரை-க்கு-பேச்சு (TTS) மற்றும் குரல் மாற்றம் (VC). 

    உரையிலிருந்து பேச்சு உரையை குரலாக மாற்றுகிறது, அதே நேரத்தில் VC ஒரு நபரின் குரலை மற்றொருவரின் குரலாக மாற்றும். இந்த இரண்டு டிடிஎன்களும் பெரும்பாலும் மெய்நிகர் உதவியாளர்களில் பயன்படுத்தப்படுகின்றன, மேலும் நுணுக்கமான குரல்கள் மற்றும் உரையாடல்களை உருவாக்க முடியும். பேச்சுத் தொகுப்பு மிகவும் உறுதியான ரோபோ பராமரிப்பாளர்களையும் சிறந்த டிஜிட்டல் வீட்டு உதவியாளர்களையும் உருவாக்க முடியும். 

    இருப்பினும், சைபர் தாக்குதல்களுக்கு செயற்கை குரல் தொழில்நுட்பத்தையும் பயன்படுத்தலாம். இந்த மோசடி நடவடிக்கைகள் மக்களின் குரல் ரேகைகளை (அவர்களின் பயோமெட்ரிக் அடையாளமாகச் செயல்பட டிஜிட்டல் முறையில் சேமிக்கப்படும் குரல் மாதிரிகள்) அமைப்புகள் மற்றும் சாதனங்களில் ஊடுருவி நகலெடுக்கின்றன. குரல் குளோனிங் சக ஊழியர்களை அவர்களின் கடவுச்சொற்கள் மற்றும் பிற முக்கியமான நிறுவனத் தகவல்களைக் கொடுத்து ஏமாற்றலாம். திருடப்பட்ட அல்லது உருவாக்கப்பட்ட குரல்கள் ஃபிஷிங் தாக்குதல்களிலும் பயன்படுத்தப்படலாம், அங்கு மக்கள் ஏமாற்றி பணம் அனுப்புவது அல்லது குறிப்பிட்ட வங்கிக் கணக்குகளுக்கு மாற்றுவது.

    சீர்குலைக்கும் தாக்கம்

    2021 ஆம் ஆண்டில், தொலைத்தொடர்பு நிறுவனமான ஹிட்டாச்சி மற்றும் ஜப்பானின் சுகுபா பல்கலைக்கழக ஆராய்ச்சியாளர்கள் AI மாதிரியை உருவாக்கினர், இது பல்வேறு ஆடியோ அடிப்படையிலான உணர்ச்சி குறிப்பான்கள் உட்பட மனிதனைப் போன்ற பேச்சைப் பிரதிபலிக்கும். பேச்சு ஒரு தொழில்முறை பராமரிப்பாளர் போல் ஒலிக்கிறது. இது போன்ற மாதிரிகள் ரோபோக்கள் அல்லது சாதனங்களில் பயன்படுத்தப்பட வேண்டும், அவை தேவைப்படும் நபர்களுக்கு துணை, ஆதரவு மற்றும் வழிகாட்டுதலை வழங்கலாம். குழு அதன் AI மாதிரியை முதலில் உணர்ச்சிகரமான பேச்சின் எடுத்துக்காட்டுகளுடன் ஊட்டுவதன் மூலம் கற்பித்தது.

    அதன் பிறகு, உணர்வை அடையாளம் காண ஒரு உணர்ச்சி அங்கீகாரம் பயிற்றுவிக்கப்படுகிறது, மேலும் உணர்ச்சிகரமான பேச்சை உருவாக்க பேச்சு தொகுப்பு மாதிரி உருவாக்கப்படுகிறது. பயனர் எந்த உணர்வு அல்லது "இலக்கு உணர்ச்சியை" எதிர்பார்க்கிறார் அல்லது கேட்க வேண்டும் என்பதைப் பொறுத்து பேச்சு சின்தசைசரை வழிநடத்த உணர்ச்சி அங்கீகாரம் உதவுகிறது. ஆராய்ச்சியாளர்கள் வயதான நோயாளிகளிடம் தங்கள் மாதிரியை சோதித்தனர், இதன் விளைவாக பங்கேற்பாளர்கள் பகல் நேரத்தில் அதிக ஆற்றல் பெற்றனர். கூடுதலாக, மாடல் நோயாளிகளை அமைதிப்படுத்தவும் இரவில் தூங்குவதற்கு அவர்களை அமைதிப்படுத்தவும் முடியும்.

    இதற்கிடையில், குரல் தொகுப்பும் திரைப்படங்களில் அதிக அளவில் பயன்படுத்தப்படுகிறது. எடுத்துக்காட்டாக, 2022 Netflix ஆவணத் தொடருக்கான செயற்கைக் குரல் விவரணையை உருவாக்க, The Andy Warhol Diaries, குரல் ஜெனரேட்டர் நிறுவனமான Resemble AI 3கள் மற்றும் 12களில் வார்ஹோலின் அசல் குரல் பதிவுகளில் 1970 நிமிடங்கள் 80 வினாடிகளைப் பயன்படுத்தியது. நிறுவனத்தின் தொழில்நுட்பம் வார்ஹோலின் குரலை டைரிகளில் இருந்து அவரது சொந்த வார்த்தைகளை மீண்டும் உருவாக்க அனுமதித்தது, அவரது வாழ்க்கையைப் பற்றிய ஆறு பகுதிகள் அடங்கிய ஆவணப்படத்தை உருவாக்கியது.

    குழு AI இலிருந்து வார்ஹோலின் குரலின் உருவாக்கப்பட்ட வெளியீட்டை எடுத்து, உணர்ச்சி மற்றும் சுருதிக்கான மாற்றங்களைச் செய்தது. மற்றொரு ஸ்பீக்கரின் ஆடியோ கிளிப்களைக் குறிப்பிடுவதன் மூலம் அவர்கள் மனிதனைப் போன்ற குறைபாடுகளைச் சேர்த்துள்ளனர். எந்தவொரு குரல் குளோனிங் அல்லது தொகுப்புத் திட்டத்திற்கும் முன்பு, நிறுவனம் எப்போதும் குரல் உரிமையாளர்கள் அல்லது அவர்களின் சட்டப் பிரதிநிதிகளிடமிருந்து சம்மதத்தைக் கேட்கும் என்பதை Resemble AI மீண்டும் வலியுறுத்துகிறது. ஆவணத் தொடருக்காக, நிறுவனம் ஆண்டி வார்ஹோல் அறக்கட்டளையின் அனுமதியைப் பெற்றது.

    பேச்சு தொகுப்பின் தாக்கங்கள்

    பேச்சுத் தொகுப்பின் பரவலான தாக்கங்கள் பின்வருமாறு: 

    • மறைந்த பிரபலங்களின் குரல்களை திரைப்படங்கள் மற்றும் ஆவணப்படங்களுக்காக மீள் உருவாக்க பேச்சுத் தொகுப்பைப் பயன்படுத்தும் ஊடக நிறுவனங்கள். இருப்பினும், சில பார்வையாளர்கள் இதை நெறிமுறையற்றதாகவும் தவறானதாகவும் கருதலாம்.
    • குரல் குளோனிங் சைபர் குற்றங்களின் அதிகரித்த சம்பவங்கள், குறிப்பாக நிதிச் சேவைத் துறையில்.
    • பிரபலமான ஓவியங்கள் மற்றும் வரலாற்று நபர்களை உயிர்ப்பிக்க செயற்கை உரையைப் பயன்படுத்தும் நேரடி உருவப்பட நிறுவனங்கள். இந்த சேவை அருங்காட்சியகங்கள் மற்றும் கல்வித் துறைக்கு குறிப்பாக கவர்ச்சிகரமானதாக உள்ளது.
    • மக்கள், குறிப்பாக பத்திரிக்கையாளர்கள் மற்றும் ஆர்வலர்கள் மீது பொய்யான குற்றச்சாட்டுகளை பரப்புவதற்கும், பொய்யான குற்றச்சாட்டுகளை சுமத்துவதற்கும் ஆழமான போலி வீடியோக்களில் பேச்சு தொகுப்பு பயன்படுத்தப்படுகிறது.
    • குரல் குளோனிங் மற்றும் செயற்கை பேச்சு சேவைகளில் கவனம் செலுத்தும் பல ஸ்டார்ட்அப் நிறுவனங்கள், பிராண்டுகளுக்கு தங்கள் குரல்களை வாடகைக்கு விட விரும்பும் பிரபலங்கள் மற்றும் செல்வாக்கு செலுத்துபவர்கள் உட்பட.
    • மேம்பட்ட பேச்சு தொகுப்பு மூலம் மெய்நிகர் உதவியாளர்கள் மற்றும் ஊடாடும் விளையாட்டுகளில் மேம்படுத்தப்பட்ட யதார்த்தம், பயனர் அனுபவத்தை மேம்படுத்துகிறது ஆனால் AI உடனான உணர்ச்சி ரீதியான இணைப்பு பற்றிய கவலைகளை எழுப்புகிறது.
    • தானியங்கி வாடிக்கையாளர் சேவையில் பேச்சுத் தொகுப்பை ஏற்றுக்கொள்வது, செயல்பாடுகளை நெறிப்படுத்துவது ஆனால் கால் சென்டர் துறையில் வேலை இடப்பெயர்ச்சிக்கு வழிவகுக்கும்.
    • பொதுச் சேவை அறிவிப்புகளுக்கான பேச்சுத் தொகுப்பை மேம்படுத்தும் அரசு நிறுவனங்கள், பன்மொழி மற்றும் உச்சரிப்பு சார்ந்த தகவல்தொடர்புகளை செயல்படுத்துகின்றன, ஆனால் தவறான பயன்பாடு அல்லது தவறான தகவல்களைத் தடுக்க கவனமாக மேற்பார்வை தேவை.

    கருத்தில் கொள்ள வேண்டிய கேள்விகள்

    • அதிக மனித-ஒலி போட்களின் பிற சாத்தியமான நன்மைகள் என்ன?
    • சைபர் குற்றவாளிகள் பேச்சுத் தொகுப்பை வேறு எப்படிப் பயன்படுத்தலாம்?

    நுண்ணறிவு குறிப்புகள்

    இந்த நுண்ணறிவுக்கு பின்வரும் பிரபலமான மற்றும் நிறுவன இணைப்புகள் குறிப்பிடப்பட்டுள்ளன: