বক্তৃতা সংশ্লেষণ: রোবট যা অবশেষে আবেগ প্রকাশ করতে পারে

ইমেজ ক্রেডিট:
চিত্র ক্রেডিট
iStock

বক্তৃতা সংশ্লেষণ: রোবট যা অবশেষে আবেগ প্রকাশ করতে পারে

বক্তৃতা সংশ্লেষণ: রোবট যা অবশেষে আবেগ প্রকাশ করতে পারে

উপশিরোনাম পাঠ্য
বক্তৃতা সংশ্লেষণ প্রযুক্তি আরও ইন্টারেক্টিভ বটগুলির জন্য নতুন সুযোগ খুলছে।
    • লেখক:
    • লেখকের নাম
      কোয়ান্টামরুন দূরদর্শিতা
    • ডিসেম্বর 29, 2022

    অন্তর্দৃষ্টি সারসংক্ষেপ

    যদিও মেশিন-জেনারেটেড বক্তৃতা কিছু সময়ের জন্য প্রায় ছিল, এটি শুধুমাত্র বক্তৃতা স্বীকৃতি এবং প্রজন্মের উন্নয়নের মাধ্যমে যে এটি কম রোবোটিক শোনাতে শুরু করেছে। কিছু কোম্পানি ভয়েস সংশ্লেষণ এবং ক্লোনিং অগ্রগতি ব্যবহার করছে আবেগকে (অর্থাৎ, স্বর) মেশিনে তৈরি বক্তৃতায়। বক্তৃতা সংশ্লেষণের দীর্ঘমেয়াদী প্রভাবগুলির মধ্যে সেলিব্রিটি কণ্ঠস্বর পুনরায় তৈরি করা এবং এমনকি আরও বিশ্বাসযোগ্য ডিপফেক সামগ্রী অন্তর্ভুক্ত থাকতে পারে।

    বক্তৃতা সংশ্লেষণ প্রসঙ্গ

    কৃত্রিম বক্তৃতা একটি অ-মানব উত্স (যেমন, একটি কম্পিউটার) দ্বারা উত্পন্ন হয় যখন একটি মানুষের ভয়েসের শব্দ পুনরায় তৈরি করা হয়। এই প্রযুক্তিটি 1930 সাল থেকে বিদ্যমান ছিল যখন আমেরিকান অ্যাকোস্টিক ইঞ্জিনিয়ার হোমার ডুডলি প্রথম ভোকোডার (ভয়েস সিন্থেসাইজার) তৈরি করেছিলেন। ধীরে ধীরে, সিস্টেমগুলি আবির্ভূত হতে শুরু করে যা গাউসিয়ান মিক্সচার মডেল (GMM) ব্যবহার করে বক্তৃতা সংশ্লেষণের গুণমান উন্নত করতে, যদিও গতি নয়। যাইহোক, গভীর শিক্ষার অগ্রগতি (ডিএল, একটি মেশিন লার্নিং পদ্ধতি) এবং কৃত্রিম বুদ্ধিমত্তা (এআই) আরও বিশ্বাসযোগ্য এবং প্রাকৃতিক-শব্দযুক্ত কথোপকথন তৈরি করতে প্রযুক্তিকে পরিমার্জিত করেছে। বক্তৃতা সংশ্লেষণ প্রাথমিকভাবে দুটি গভীর নিউরাল নেটওয়ার্ক (DNN) প্রযুক্তি দ্বারা সমর্থিত: টেক্সট-টু-স্পীচ (টিটিএস) এবং ভয়েস রূপান্তর (ভিসি)। 

    টেক্সট-টু-স্পিচ টেক্সটকে ভয়েসে রূপান্তরিত করে, যখন ভিসি একজন ব্যক্তির ভয়েসকে অন্যের নকল করতে পারে। এই দুটি DDN প্রায়শই ভার্চুয়াল সহকারীতে ব্যবহৃত হয় এবং আরও সূক্ষ্ম ভয়েস এবং কথোপকথন তৈরি করতে পারে। বক্তৃতা সংশ্লেষণ আরও জোরালো রোবট যত্নশীল এবং স্মার্ট ডিজিটাল হোম সহকারী তৈরি করতে পারে। 

    তবে সাইবার হামলার জন্য সিন্থেটিক ভয়েস প্রযুক্তিও ব্যবহার করা যেতে পারে। এই প্রতারণামূলক কার্যকলাপগুলি সিস্টেম এবং ডিভাইসগুলিতে অনুপ্রবেশ করার জন্য লোকেদের ভয়েসপ্রিন্ট (ভয়েস নমুনাগুলি যেগুলি ডিজিটালভাবে তাদের বায়োমেট্রিক সনাক্তকরণ হিসাবে সংরক্ষণ করা হয়) অনুলিপি করে। ভয়েস ক্লোনিং সহকর্মীদের তাদের পাসওয়ার্ড এবং অন্যান্য সংবেদনশীল কোম্পানির তথ্য দিতে বোকা বানাতে পারে। চুরি করা বা উত্পন্ন ভয়েসগুলি ফিশিং আক্রমণেও ব্যবহার করা যেতে পারে যেখানে লোকেদের টাকা পাঠানো বা নির্দিষ্ট ব্যাঙ্ক অ্যাকাউন্টে স্থানান্তর করার জন্য প্রতারিত করা হয়।

    বিঘ্নিত প্রভাব

    2021 সালে, টেলিকম কোম্পানি হিটাচি এবং জাপানের ইউনিভার্সিটি অফ সুকুবা-এর গবেষকরা একটি AI মডেল তৈরি করেছেন যা মানুষের মতো বক্তৃতাকে নকল করতে পারে, যার মধ্যে বিভিন্ন অডিও-ভিত্তিক সংবেদনশীল মার্কার রয়েছে। বক্তৃতাটি একজন পেশাদার যত্নশীলের মতো শোনানো বোঝানো হয়। এই ধরনের মডেলগুলি রোবট বা ডিভাইসগুলিতে ব্যবহার করার উদ্দেশ্যে তৈরি করা হয়েছে যা প্রয়োজন ব্যক্তিদের জন্য সাহচর্য, সমর্থন এবং দিকনির্দেশনা দিতে পারে। দলটি তার AI মডেলকে প্রথমে আবেগপূর্ণ বক্তৃতার উদাহরণ দিয়ে খাওয়ানোর মাধ্যমে শিখিয়েছে।

    এর পরে, অনুভূতি শনাক্ত করার জন্য একজন আবেগ শনাক্তকারীকে প্রশিক্ষিত করা হয় এবং আবেগপূর্ণ বক্তৃতা তৈরি করার জন্য একটি বক্তৃতা সংশ্লেষণ মডেল তৈরি করা হয়। আবেগ শনাক্তকারী স্পিচ সিনথেসাইজারকে গাইড করতে সাহায্য করে ব্যবহারকারী কোন অনুভূতি বা "টার্গেট ইমোশন" আশা করে বা শুনতে চায় তার উপর নির্ভর করে। গবেষকরা বয়স্ক রোগীদের উপর তাদের মডেল পরীক্ষা করেছেন, এবং অংশগ্রহণকারীরা দিনের বেলায় আরও উদ্যমী হয়ে ওঠে। উপরন্তু, মডেল রোগীদের শান্ত করতে পারে এবং তাদের রাতে ঘুমাতে পারে।

    এদিকে, ভয়েস সংশ্লেষণও চলচ্চিত্রে ক্রমবর্ধমানভাবে ব্যবহৃত হচ্ছে। উদাহরণস্বরূপ, 2022 Netflix ডকু-সিরিজের জন্য সিন্থেটিক ভয়েস ন্যারেটিভ তৈরি করতে, The Andy Warhol Diaries, ভয়েস জেনারেটর ফার্ম Resemble AI 3 এবং 12 এর দশকের ওয়ারহোলের আসল ভয়েস রেকর্ডিংগুলির 1970 মিনিট এবং 80 সেকেন্ড ব্যবহার করেছিল। ফার্মের প্রযুক্তি ওয়ারহলের কণ্ঠকে ডায়েরি থেকে তার নিজের কথা আবৃত্তি করার জন্য পুনরায় তৈরি করার অনুমতি দেয়, তার জীবনের উপর একটি ছয়-অংশের নিমজ্জিত তথ্যচিত্র তৈরি করে।

    দলটি এআই থেকে ওয়ারহোলের ভয়েসের তৈরি আউটপুট নিয়েছে এবং আবেগ এবং পিচের জন্য সমন্বয় করেছে। তারা অন্য স্পিকারের অডিও ক্লিপ উল্লেখ করে মানুষের মতো অসম্পূর্ণতা যোগ করেছে। Resemble AI পুনরুক্তি করে যে কোনও ভয়েস ক্লোনিং বা সংশ্লেষণ প্রকল্পের আগে, কোম্পানি সর্বদা ভয়েস মালিক বা তাদের আইনি প্রতিনিধিদের কাছ থেকে সম্মতি চায়। ডকু-সিরিজের জন্য, কোম্পানিটি অ্যান্ডি ওয়ারহল ফাউন্ডেশনের অনুমতি পেয়েছে।

    বক্তৃতা সংশ্লেষণের প্রভাব

    বক্তৃতা সংশ্লেষণের বিস্তৃত প্রভাব অন্তর্ভুক্ত হতে পারে: 

    • মিডিয়া কোম্পানিগুলি ফিল্ম এবং ডকুমেন্টারিগুলির জন্য মৃত সেলিব্রিটিদের কণ্ঠস্বর পুনরায় তৈরি করতে বক্তৃতা সংশ্লেষণ ব্যবহার করে৷ যাইহোক, কিছু শ্রোতা এটিকে অনৈতিক এবং অপ্রীতিকর বলে মনে করতে পারে।
    • ভয়েস ক্লোনিং সাইবার অপরাধের ঘটনা বেড়েছে, বিশেষ করে আর্থিক পরিষেবা শিল্পে।
    • লাইভ পোর্ট্রেট সংস্থাগুলি বিখ্যাত পেইন্টিং এবং ঐতিহাসিক ব্যক্তিত্বকে জীবন্ত করতে সিন্থেটিক স্পিচ ব্যবহার করে। এই পরিষেবাটি বিশেষ করে জাদুঘর এবং শিক্ষা খাতের জন্য আকর্ষণীয়।
    • ডিপফেক ভিডিওতে স্পিচ সংশ্লেষণ ব্যবহার করা হচ্ছে প্রোপাগান্ডা ছড়ানোর জন্য এবং মানুষকে, বিশেষ করে সাংবাদিক ও কর্মীদের বিরুদ্ধে মিথ্যা অভিযোগ আনার জন্য।
    • ভয়েস ক্লোনিং এবং সিন্থেটিক বক্তৃতা পরিষেবাগুলিতে ফোকাস করে আরও স্টার্টআপ সংস্থা, সেলিব্রিটি এবং প্রভাবশালীরা যারা ব্র্যান্ডগুলিতে তাদের ভয়েস ভাড়া দিতে চান।
    • উন্নত বক্তৃতা সংশ্লেষণের মাধ্যমে ভার্চুয়াল সহকারী এবং ইন্টারেক্টিভ গেমগুলিতে উন্নত বাস্তবতা, ব্যবহারকারীর অভিজ্ঞতা উন্নত করে কিন্তু AI এর সাথে মানসিক সংযুক্তি নিয়ে উদ্বেগ বাড়ায়।
    • স্বয়ংক্রিয় গ্রাহক পরিষেবায় বক্তৃতা সংশ্লেষণ গ্রহণ, ক্রিয়াকলাপগুলিকে স্ট্রিমলাইন করা কিন্তু সম্ভাব্যভাবে কল সেন্টার শিল্পে চাকরির স্থানচ্যুতি ঘটাতে পারে৷
    • সরকারী সংস্থাগুলি পাবলিক সার্ভিসের ঘোষণার জন্য বক্তৃতা সংশ্লেষণের ব্যবহার করে, বহুভাষিক এবং উচ্চারণ-নির্দিষ্ট যোগাযোগ সক্ষম করে কিন্তু অপব্যবহার বা ভুল তথ্য প্রতিরোধে সতর্ক তদারকির প্রয়োজন।

    বিবেচনা করার প্রশ্ন

    • আরও মানব-শব্দযুক্ত বটগুলির অন্যান্য সম্ভাব্য সুবিধাগুলি কী কী?
    • সাইবার অপরাধীরা কীভাবে বক্তৃতা সংশ্লেষণ ব্যবহার করতে পারে?

    অন্তর্দৃষ্টি রেফারেন্স

    এই অন্তর্দৃষ্টির জন্য নিম্নলিখিত জনপ্রিয় এবং প্রাতিষ্ঠানিক লিঙ্কগুলি উল্লেখ করা হয়েছে: