| عنوان مقاله به انگلیسی | Enhancing Synthetic Training Data for Speech Commands: From ASR-Based Filtering to Domain Adaptation in SSL Latent Space | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله افزایش داده های آموزش مصنوعی برای دستورات گفتاری: از فیلتر مبتنی بر ASR گرفته تا سازگاری دامنه در فضای نهفته SSL | ||||||||
| نویسندگان | Sebastião Quintas, Isabelle Ferrané, Thomas Pellegrini | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 5 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Sound,Artificial Intelligence,Machine Learning,Audio and Speech Processing,صدا , هوش مصنوعی , یادگیری ماشین , پردازش صوتی و گفتار , | ||||||||
| توضیحات | Submitted 19 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارسال شده در 19 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
The use of synthetic speech as data augmentation is gaining increasing popularity in fields such as automatic speech recognition and speech classification tasks. Despite novel text-to-speech systems with voice cloning capabilities, that allow the usage of a larger amount of voices based on short audio segments, it is known that these systems tend to hallucinate and oftentimes produce bad data that will most likely have a negative impact on the downstream task. In the present work, we conduct a set of experiments around zero-shot learning with synthetic speech data for the specific task of speech commands classification. Our results on the Google Speech Commands dataset show that a simple ASR-based filtering method can have a big impact in the quality of the generated data, translating to a better performance. Furthermore, despite the good quality of the generated speech data, we also show that synthetic and real speech can still be easily distinguishable when using self-supervised (WavLM) features, an aspect further explored with a CycleGAN to bridge the gap between the two types of speech material.
چکیده به فارسی (ترجمه ماشینی)
استفاده از گفتار مصنوعی به عنوان افزایش داده ها در زمینه هایی مانند تشخیص خودکار گفتار و کارهای طبقه بندی گفتار ، محبوبیت بیشتری کسب می کند.علیرغم سیستم های جدید متن به گفتار با قابلیت های کلونینگ صوتی ، که امکان استفاده از تعداد بیشتری از صداهای را بر اساس بخش های صوتی کوتاه فراهم می کند ، مشخص است که این سیستم ها تمایل به توهم دارند و اغلب اوقات داده های بدی تولید می کنند که به احتمال زیاد منفی خواهند بودتأثیر در کار پایین دست.در کار حاضر ، ما مجموعه ای از آزمایشات را در مورد یادگیری صفر با داده گفتار مصنوعی برای کار خاص طبقه بندی دستورات گفتار انجام می دهیم.نتایج ما در مجموعه داده های Commands Google نشان می دهد که یک روش فیلتر ساده مبتنی بر ASR می تواند تأثیر زیادی در کیفیت داده های تولید شده داشته باشد و به عملکرد بهتری تبدیل شود.علاوه بر این ، علی رغم کیفیت خوب داده های گفتار تولید شده ، ما همچنین نشان می دهیم که گفتار مصنوعی و واقعی هنوز هم می تواند به راحتی هنگام استفاده از ویژگی های خودکشی (WAVLM) قابل تشخیص باشد ، جنبه ای که بیشتر با یک Cyclegan مورد بررسی قرار می گیرد تا شکاف بین این دو نوع را ایجاد کنداز مطالب گفتاری.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.