| عنوان مقاله به انگلیسی | Multi-Microphone and Multi-Modal Emotion Recognition in Reverberant Environment | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله تشخیص احساسات چند میکروفونی و چند وجهی در محیط پرانرژی | ||||||||
| نویسندگان | Ohad Cohen, Gershon Hazan, Sharon Gannot | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 5 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Sound,Machine Learning,Audio and Speech Processing,صدا , یادگیری ماشین , پردازش صوتی و گفتار , | ||||||||
| توضیحات | Submitted 17 September, 2024; v1 submitted 14 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارسال شده 17 سپتامبر 2024 ؛V1 ارسال شده 14 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
This paper presents a Multi-modal Emotion Recognition (MER) system designed to enhance emotion recognition accuracy in challenging acoustic conditions. Our approach combines a modified and extended Hierarchical Token-semantic Audio Transformer (HTS-AT) for multi-channel audio processing with an R(2+1)D Convolutional Neural Networks (CNN) model for video analysis. We evaluate our proposed method on a reverberated version of the Ryerson audio-visual database of emotional speech and song (RAVDESS) dataset using synthetic and real-world Room Impulse Responsess (RIRs). Our results demonstrate that integrating audio and video modalities yields superior performance compared to uni-modal approaches, especially in challenging acoustic conditions. Moreover, we show that the multimodal (audiovisual) approach that utilizes multiple microphones outperforms its single-microphone counterpart.
چکیده به فارسی (ترجمه ماشینی)
در این مقاله یک سیستم تشخیص احساسات چند منظوره (MER) طراحی شده است که به منظور تقویت دقت تشخیص احساسات در شرایط صوتی به چالش کشیده شده است.رویکرد ما ترکیبی از ترانسفورماتور صوتی و معنایی سلسله مراتبی اصلاح شده (HTS-AT) برای پردازش صوتی چند کانال با مدل R (2+1) D شبکه های عصبی Convolutional (CNN) برای تجزیه و تحلیل فیلم است.ما روش پیشنهادی خود را در یک نسخه برجسته از پایگاه داده صوتی و تصویری Ryerson از مجموعه داده های گفتار و آهنگ (RAVDESS) با استفاده از پاسخ به انگیزه اتاق مصنوعی و واقعی (RIRS) ارزیابی می کنیم.نتایج ما نشان می دهد که ادغام روشهای صوتی و تصویری عملکرد برتر را در مقایسه با رویکردهای یکدست ، به ویژه در شرایط آکوستیک چالش برانگیز ، به دست می آورد.علاوه بر این ، ما نشان می دهیم که رویکرد چند حالته (سمعی و بصری) که از میکروفن های متعدد استفاده می کند ، از همتای تک میکروفون خود بهتر است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.