| عنوان مقاله به انگلیسی | On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله در مورد مسئله انتخاب مدل تبدیل متن به گفتار برای تولید داده مصنوعی در تشخیص خودکار گفتار |
| نویسندگان | Nick Rossenbach, Ralf Schlüter, Sakriani Sakti |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 5 |
| دسته بندی موضوعات | Computation and Language,Machine Learning,Sound,Audio and Speech Processing,محاسبات و زبان , یادگیری ماشین , صدا , صدا و گفتار , |
| توضیحات | Submitted 31 July, 2024; originally announced July 2024. , Comments: Accepted at the SynData4GenAI 2024 workshop |
| توضیحات به فارسی | ارسال 31 ژوئیه 2024 ؛در ابتدا ژوئیه 2024 اعلام شد ، نظرات: پذیرفته شده در کارگاه Syndata4Genai 2024 |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 200,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
The rapid development of neural text-to-speech (TTS) systems enabled its usage in other areas of natural language processing such as automatic speech recognition (ASR) or spoken language translation (SLT). Due to the large number of different TTS architectures and their extensions, selecting which TTS systems to use for synthetic data creation is not an easy task. We use the comparison of five different TTS decoder architectures in the scope of synthetic data generation to show the impact on CTC-based speech recognition training. We compare the recognition results to computable metrics like NISQA MOS and intelligibility, finding that there are no clear relations to the ASR performance. We also observe that for data generation auto-regressive decoding performs better than non-autoregressive decoding, and propose an approach to quantify TTS generalization capabilities.
چکیده به فارسی (ترجمه ماشینی)
توسعه سریع سیستم های عصبی متن به گفتار (TTS) امکان استفاده از آن در سایر زمینه های پردازش زبان طبیعی مانند تشخیص خودکار گفتار (ASR) یا ترجمه زبان گفتاری (SLT) را فراهم می کند.با توجه به تعداد زیادی از معماری های مختلف TTS و برنامه های افزودنی آنها ، انتخاب سیستم های TTS برای ایجاد داده های مصنوعی کار آسانی نیست.ما از مقایسه پنج معماری مختلف رمزگذار TTS در دامنه تولید داده های مصنوعی استفاده می کنیم تا تأثیر آن بر آموزش تشخیص گفتار مبتنی بر CTC را نشان دهیم.ما نتایج شناخت را با معیارهای قابل محاسبه مانند NISQA MOS و قابل فهم مقایسه می کنیم ، و متوجه می شویم که هیچ رابطه روشنی با عملکرد ASR وجود ندارد.ما همچنین مشاهده می کنیم که برای تولید داده های رمزگشایی خودکار ، عملکرد بهتری نسبت به رمزگشایی غیر خودپسندانه دارد و رویکردی را برای تعیین کمیت قابلیت های تعمیم TTS پیشنهاد می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.