| عنوان مقاله به انگلیسی | Re-ENACT: Reinforcement Learning for Emotional Speech Generation using Actor-Critic Strategy |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله بازآفرینی: یادگیری تقویتی برای تولید گفتار احساسی با استفاده از استراتژی بازیگر-منتقد |
| نویسندگان | Ravi Shankar, Archana Venkataraman |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 7 |
| دسته بندی موضوعات | Audio and Speech Processing,Artificial Intelligence,Machine Learning,پردازش صوتی و گفتار , هوش مصنوعی , یادگیری ماشین , |
| توضیحات | Submitted 3 August, 2024; originally announced August 2024. , Comments: 7 pages, 10 figures |
| توضیحات به فارسی | ارسال شده در 3 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 7 صفحه ، 10 شکل |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 280,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
In this paper, we propose the first method to modify the prosodic features of a given speech signal using actor-critic reinforcement learning strategy. Our approach uses a Bayesian framework to identify contiguous segments of importance that links segments of the given utterances to perception of emotions in humans. We train a neural network to produce the variational posterior of a collection of Bernoulli random variables; our model applies a Markov prior on it to ensure continuity. A sample from this distribution is used for downstream emotion prediction. Further, we train the neural network to predict a soft assignment over emotion categories as the target variable. In the next step, we modify the prosodic features (pitch, intensity, and rhythm) of the masked segment to increase the score of target emotion. We employ an actor-critic reinforcement learning to train the prosody modifier by discretizing the space of modifications. Further, it provides a simple solution to the problem of gradient computation through WSOLA operation for rhythm manipulation. Our experiments demonstrate that this framework changes the perceived emotion of a given speech utterance to the target. Further, we show that our unified technique is on par with state-of-the-art emotion conversion models from supervised and unsupervised domains that require pairwise training.
چکیده به فارسی (ترجمه ماشینی)
در این مقاله ، ما اولین روش را برای اصلاح ویژگی های prosodic یک سیگنال گفتار معین با استفاده از استراتژی یادگیری تقویت کننده بازیگر-انتقادی پیشنهاد می کنیم.رویکرد ما از یک چارچوب بیزی برای شناسایی بخش های متناسب با اهمیت استفاده می کند که بخش هایی از گفته های داده شده را به درک احساسات در انسان پیوند می دهد.ما یک شبکه عصبی را آموزش می دهیم تا خلفی متنوع مجموعه ای از متغیرهای تصادفی برنولی را تولید کنیم.مدل ما برای اطمینان از تداوم ، مارکوف را قبل از آن اعمال می کند.نمونه ای از این توزیع برای پیش بینی احساسات پایین دست استفاده می شود.علاوه بر این ، ما شبکه عصبی را آموزش می دهیم تا یک تکلیف نرم نسبت به دسته های احساسات را به عنوان متغیر هدف پیش بینی کنیم.در مرحله بعدی ، ما ویژگی های prosodic (زمین ، شدت و ریتم) بخش ماسک را اصلاح می کنیم تا نمره احساسات هدف را افزایش دهیم.ما از یک یادگیری تقویت کننده انتقاد کننده بازیگر برای آموزش اصلاح کننده ProSody با گسسته کردن فضای اصلاحات استفاده می کنیم.علاوه بر این ، این یک راه حل ساده برای مشکل محاسبات شیب از طریق عملکرد Wsola برای دستکاری ریتم ارائه می دهد.آزمایشات ما نشان می دهد که این چارچوب احساسات درک شده از گفتار خاص را به هدف تغییر می دهد.علاوه بر این ، ما نشان می دهیم که تکنیک یکپارچه ما با مدل های پیشرفته و پیشرفته احساسات از حوزه های تحت نظارت و بدون نظارت که نیاز به آموزش زوجی دارند ، مطابقت دارد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.