عنوان مقاله به انگلیسی | Improving Speaker-independent Speech Emotion Recognition Using Dynamic Joint Distribution Adaptation |
عنوان مقاله به فارسی | بهبود تشخیص احساس گفتار مستقل از سخنران با استفاده از سازگاری توزیع مشترک پویا |
نویسندگان | Cheng Lu, Yuan Zong, Hailun Lian, Yan Zhao, Björn Schuller, Wenming Zheng |
زبان مقاله | انگلیسی |
فرمت مقاله: | |
چکیده | In speaker-independent speech emotion recognition, the training and testing samples are collected from diverse speakers, leading to a multi-domain shift challenge across the feature distributions of data from different speakers. Consequently, when the trained model is confronted with data from new speakers, its performance tends to degrade. To address the issue, we propose a Dynamic Joint Distribution Adaptation (DJDA) method under the framework of multi-source domain adaptation. DJDA firstly utilizes joint distribution adaptation (JDA), involving marginal distribution adaptation (MDA) and conditional distribution adaptation (CDA), to more precisely measure the multi-domain distribution shifts caused by different speakers. This helps eliminate speaker bias in emotion features, allowing for learning discriminative and speaker-invariant speech emotion features from coarse-level to fine-level. Furthermore, we quantify the adaptation contributions of MDA and CDA within JDA by using a dynamic balance factor based on $\mathcal{A}$-Distance, promoting to effectively handle the unknown distributions encountered in data from new speakers. Experimental results demonstrate the superior performance of our DJDA as compared to other state-of-the-art (SOTA) methods. |
تعداد صفحات | 5 |
چکیده به فارسی (ترجمه ماشینی) | در تشخیص احساسات گفتار مستقل از سخنران ، نمونه های آموزش و آزمایش از بلندگوهای متنوع جمع آوری می شود و منجر به یک چالش تغییر چند دامنه در سراسر توزیع ویژگی های داده های بلندگوهای مختلف می شود.در نتیجه ، هنگامی که مدل آموزش دیده با داده های بلندگوهای جدید روبرو می شود ، عملکرد آن تمایل به تخریب دارد.برای پرداختن به این مسئله ، ما یک روش سازگاری توزیع مشترک پویا (DJDA) را تحت چارچوب سازگاری دامنه چند منبع پیشنهاد می کنیم.DJDA در مرحله اول از سازگاری توزیع مشترک (JDA) ، شامل سازگاری توزیع حاشیه (MDA) و سازگاری توزیع مشروط (CDA) ، برای اندازه گیری دقیق تر تغییرات توزیع چند دامنه ناشی از بلندگوهای مختلف استفاده می کند.این امر به از بین بردن تعصب بلندگو در ویژگی های احساسات کمک می کند ، و این امکان را برای یادگیری ویژگی های احساسات گفتار تبعیض آمیز و متغیر بلندگو از سطح درشت تا سطح ریز فراهم می کند.علاوه بر این ، ما با استفاده از یک فاکتور تعادل پویا بر اساس $ \ mathcal {a} $ فاصله ، کمک های سازگاری MDA و CDA را در JDA تعیین می کنیم ، و ترویج می کنیم تا به طور مؤثر توزیع های ناشناخته ای را که در داده های بلندگوهای جدید مشاهده می شود ، انجام دهیم.نتایج تجربی عملکرد برتر DJDA ما را در مقایسه با سایر روشهای پیشرفته (SOTA) نشان می دهد. |
دسته بندی موضوعات | Sound,Machine Learning,Audio and Speech Processing,صدا ، یادگیری ماشین ، پردازش صوتی و گفتار ، |
توضیحات | Submitted 18 January, 2024; originally announced January 2024. , Comments: Accepted by ICASSP 2024 |
توضیحات به فارسی | ارائه شده در 18 ژانویه 2024 ؛در ابتدا ژانویه 2024 اعلام شد ، نظرات: توسط ICASSP 2024 پذیرفته شده است |
توجه کنید این مقاله به زبان انگلیسی است. |
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|
نقد و بررسیها
هنوز بررسیای ثبت نشده است.