| عنوان مقاله به انگلیسی | ECAPA2: A Hybrid Neural Network Architecture and Training Strategy for Robust Speaker Embeddings |
| عنوان مقاله به فارسی | مقاله ECAPA2: معماری شبکه عصبی ترکیبی و استراتژی آموزش برای تعبیه کننده بلندگو |
| نویسندگان | Jenthe Thienpondt, Kris Demuynck |
| زبان مقاله | انگلیسی |
| فرمت مقاله: | |
| تعداد صفحات | 8 |
| دسته بندی موضوعات | Audio and Speech Processing,پردازش صوتی و گفتار , |
| توضیحات | Submitted 16 January, 2024; originally announced January 2024. , Comments: proceedings of ASRU 2023 |
| توضیحات به فارسی | 16 ژانویه 2024 ارسال شد.در ابتدا ژانویه 2024 اعلام شد ، نظرات: مجموعه مقالات ASRU 2023 |
چکیده
In this paper, we present ECAPA2, a novel hybrid neural network architecture and training strategy to produce robust speaker embeddings. Most speaker verification models are based on either the 1D- or 2D-convolutional operation, often manifested as Time Delay Neural Networks or ResNets, respectively. Hybrid models are relatively unexplored without an intuitive explanation what constitutes best practices in regard to its architectural choices. We motivate the proposed ECAPA2 model in this paper with an analysis of current speaker verification architectures. In addition, we propose a training strategy which makes the speaker embeddings more robust against overlapping speech and short utterance lengths. The presented ECAPA2 architecture and training strategy attains state-of-the-art performance on the VoxCeleb1 test sets with significantly less parameters than current models. Finally, we make a pre-trained model publicly available to promote research on downstream tasks.
چکیده به فارسی (ترجمه ماشینی)
در این مقاله ، ما ECAPA2 را ارائه می دهیم ، یک معماری جدید و استراتژی آموزش شبکه عصبی ترکیبی برای تولید تعبیه کننده بلندگو.بیشتر مدل های تأیید بلندگو بر اساس عملکرد 1D- یا 2D-convolutional است که به ترتیب به عنوان شبکه های عصبی یا Resnets به ترتیب تاخیر زمانی آشکار می شوند.مدل های ترکیبی نسبتاً ناشناخته بدون توضیحی شهودی هستند که در مورد انتخاب های معماری آن بهترین شیوه ها را تشکیل می دهد.ما در این مقاله با تجزیه و تحلیل معماری های تأیید بلندگو فعلی ، مدل ECAPA2 پیشنهادی را ایجاد می کنیم.علاوه بر این ، ما یک استراتژی آموزشی پیشنهاد می کنیم که باعث می شود تعبیه کننده بلندگو در برابر گفتار با هم همپوشانی و طول گفتار کوتاه قوی تر شود.معماری و استراتژی آموزش ECAPA2 ارائه شده به عملکرد پیشرفته در مجموعه های آزمون VoxCeleb1 با پارامترهای قابل توجهی کمتر از مدل های فعلی می رسد.سرانجام ، ما یک مدل از قبل آموزش دیده را برای ارتقاء تحقیقات در مورد کارهای پایین دست در دسترس قرار می دهیم.
| توجه کنید این مقاله به زبان انگلیسی است. |
|
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|


نقد و بررسیها
هنوز بررسیای ثبت نشده است.