| عنوان مقاله به انگلیسی | Improving ASR Contextual Biasing with Guided Attention |
| عنوان مقاله به فارسی | مقاله بهبود مغرضانه ASR با توجه هدایت شده |
| نویسندگان | Jiyang Tang, Kwangyoun Kim, Suwon Shon, Felix Wu, Prashant Sridhar, Shinji Watanabe |
| زبان مقاله | انگلیسی |
| فرمت مقاله: | |
| تعداد صفحات | 5 |
| دسته بندی موضوعات | Computation and Language,Audio and Speech Processing,محاسبه و زبان , پردازش صوتی و گفتار , |
| توضیحات | Submitted 16 January, 2024; originally announced January 2024. , Comments: Accepted at ICASSP 2024 |
| توضیحات به فارسی | 16 ژانویه 2024 ارسال شد.در ابتدا ژانویه 2024 اعلام شد ، نظرات: در ICASSP 2024 پذیرفته شده است |
چکیده
In this paper, we propose a Guided Attention (GA) auxiliary training loss, which improves the effectiveness and robustness of automatic speech recognition (ASR) contextual biasing without introducing additional parameters. A common challenge in previous literature is that the word error rate (WER) reduction brought by contextual biasing diminishes as the number of bias phrases increases. To address this challenge, we employ a GA loss as an additional training objective besides the Transducer loss. The proposed GA loss aims to teach the cross attention how to align bias phrases with text tokens or audio frames. Compared to studies with similar motivations, the proposed loss operates directly on the cross attention weights and is easier to implement. Through extensive experiments based on Conformer Transducer with Contextual Adapter, we demonstrate that the proposed method not only leads to a lower WER but also retains its effectiveness as the number of bias phrases increases. Specifically, the GA loss decreases the WER of rare vocabularies by up to 19.2% on LibriSpeech compared to the contextual biasing baseline, and up to 49.3% compared to a vanilla Transducer.
چکیده به فارسی (ترجمه ماشینی)
در این مقاله ، ما از دست دادن آموزش کمکی توجه (GA) استفاده می کنیم ، که باعث بهبود اثربخشی و استحکام تشخیص خودکار گفتار (ASR) بدون معرفی پارامترهای اضافی می شود.یک چالش رایج در ادبیات قبلی این است که کاهش نرخ خطای کلمه (WER) که توسط تعصب متنی ایجاد می شود با افزایش تعداد عبارات تعصب کاهش می یابد.برای پرداختن به این چالش ، ما علاوه بر ضرر مبدل ، از ضرر GA به عنوان یک هدف آموزش اضافی استفاده می کنیم.از دست دادن GA پیشنهادی هدف این است که توجه متقاطع را به نحوه تراز کردن عبارات تعصب با نشانه های متن یا قاب های صوتی آموزش دهد.در مقایسه با مطالعات با انگیزه های مشابه ، از دست دادن پیشنهادی مستقیماً بر روی وزن توجه متقاطع عمل می کند و اجرای آن آسان تر است.از طریق آزمایش های گسترده مبتنی بر مبدل سازنده با آداپتور متنی ، ما نشان می دهیم که روش پیشنهادی نه تنها منجر به WER پایین تر می شود بلکه با افزایش تعداد عبارات تعصب ، اثربخشی آن را حفظ می کند.به طور خاص ، از دست دادن GA باعث کاهش واژگان نادر تا 19.2 ٪ در Librispeech در مقایسه با پایه تعصب متنی و تا 49.3 ٪ در مقایسه با مبدل وانیل می شود.
| توجه کنید این مقاله به زبان انگلیسی است. |
|
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|


نقد و بررسیها
هنوز بررسیای ثبت نشده است.