,

مقاله ECAPA2: معماری شبکه عصبی ترکیبی و استراتژی آموزشی برای جاسازی بلندگوهای قوی

10,000 تومان

عنوان مقاله به انگلیسی ECAPA2: A Hybrid Neural Network Architecture and Training Strategy for Robust Speaker Embeddings
عنوان مقاله به فارسی مقاله ECAPA2: معماری شبکه عصبی ترکیبی و استراتژی آموزش برای تعبیه کننده بلندگو
نویسندگان Jenthe Thienpondt, Kris Demuynck
زبان مقاله انگلیسی
فرمت مقاله: PDF
تعداد صفحات 8
دسته بندی موضوعات Audio and Speech Processing,پردازش صوتی و گفتار ,
توضیحات Submitted 16 January, 2024; originally announced January 2024. , Comments: proceedings of ASRU 2023
توضیحات به فارسی 16 ژانویه 2024 ارسال شد.در ابتدا ژانویه 2024 اعلام شد ، نظرات: مجموعه مقالات ASRU 2023

چکیده

In this paper, we present ECAPA2, a novel hybrid neural network architecture and training strategy to produce robust speaker embeddings. Most speaker verification models are based on either the 1D- or 2D-convolutional operation, often manifested as Time Delay Neural Networks or ResNets, respectively. Hybrid models are relatively unexplored without an intuitive explanation what constitutes best practices in regard to its architectural choices. We motivate the proposed ECAPA2 model in this paper with an analysis of current speaker verification architectures. In addition, we propose a training strategy which makes the speaker embeddings more robust against overlapping speech and short utterance lengths. The presented ECAPA2 architecture and training strategy attains state-of-the-art performance on the VoxCeleb1 test sets with significantly less parameters than current models. Finally, we make a pre-trained model publicly available to promote research on downstream tasks.

چکیده به فارسی (ترجمه ماشینی)

در این مقاله ، ما ECAPA2 را ارائه می دهیم ، یک معماری جدید و استراتژی آموزش شبکه عصبی ترکیبی برای تولید تعبیه کننده بلندگو.بیشتر مدل های تأیید بلندگو بر اساس عملکرد 1D- یا 2D-convolutional است که به ترتیب به عنوان شبکه های عصبی یا Resnets به ترتیب تاخیر زمانی آشکار می شوند.مدل های ترکیبی نسبتاً ناشناخته بدون توضیحی شهودی هستند که در مورد انتخاب های معماری آن بهترین شیوه ها را تشکیل می دهد.ما در این مقاله با تجزیه و تحلیل معماری های تأیید بلندگو فعلی ، مدل ECAPA2 پیشنهادی را ایجاد می کنیم.علاوه بر این ، ما یک استراتژی آموزشی پیشنهاد می کنیم که باعث می شود تعبیه کننده بلندگو در برابر گفتار با هم همپوشانی و طول گفتار کوتاه قوی تر شود.معماری و استراتژی آموزش ECAPA2 ارائه شده به عملکرد پیشرفته در مجموعه های آزمون VoxCeleb1 با پارامترهای قابل توجهی کمتر از مدل های فعلی می رسد.سرانجام ، ما یک مدل از قبل آموزش دیده را برای ارتقاء تحقیقات در مورد کارهای پایین دست در دسترس قرار می دهیم.

توجه کنید این مقاله به زبان انگلیسی است.
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:

09395106248

توجه کنید که شرایط ترجمه به صورت زیر است:
  • قیمت هر صفحه ترجمه در حال حاضر 40 هزار تومان می باشد.
  • تحویل مقاله ترجمه شده به صورت فایل ورد می باشد.
  • زمان تحویل ترجمه مقاله در صورت داشتن تعداد صفحات عادی بین 3 تا 5 روز خواهد بود.
  • کیفیت ترجمه بسیار بالا می باشد. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
  • کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “مقاله ECAPA2: معماری شبکه عصبی ترکیبی و استراتژی آموزشی برای جاسازی بلندگوهای قوی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا