| عنوان مقاله به انگلیسی | Do VSR Models Generalize Beyond LRS3? |
| عنوان مقاله به فارسی | مقاله آیا مدل های VSR فراتر از LRS3 تعمیم می یابد؟ |
| نویسندگان | Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Eustache Le Bihan, Haithem Boussaid, Ebtessam Almazrouei, Merouane Debbah |
| زبان مقاله | انگلیسی |
| فرمت مقاله: | |
| تعداد صفحات | 0 |
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Computation and Language,Machine Learning,چشم انداز رایانه و تشخیص الگوی , محاسبه و زبان , یادگیری ماشین , |
| توضیحات | Submitted 23 November, 2023; originally announced November 2023. |
| توضیحات به فارسی | ارسال شده 23 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد. |
چکیده
The Lip Reading Sentences-3 (LRS3) benchmark has primarily been the focus of intense research in visual speech recognition (VSR) during the last few years. As a result, there is an increased risk of overfitting to its excessively used test set, which is only one hour duration. To alleviate this issue, we build a new VSR test set named WildVSR, by closely following the LRS3 dataset creation processes. We then evaluate and analyse the extent to which the current VSR models generalize to the new test data. We evaluate a broad range of publicly available VSR models and find significant drops in performance on our test set, compared to their corresponding LRS3 results. Our results suggest that the increase in word error rates is caused by the models inability to generalize to slightly harder and in the wild lip sequences than those found in the LRS3 test set. Our new test benchmark is made public in order to enable future research towards more robust VSR models.
چکیده به فارسی (ترجمه ماشینی)
محک های لب خواندن -3 (LRS3) در درجه اول تمرکز تحقیقات شدید در تشخیص گفتار بصری (VSR) در چند سال گذشته بوده است.در نتیجه ، خطر افزایش بیش از حد به مجموعه آزمایش بیش از حد استفاده شده از آن ، که تنها یک ساعت طول دارد ، افزایش می یابد.برای کاهش این مسئله ، ما با پیگیری نزدیک فرآیندهای ایجاد مجموعه داده LRS3 ، یک تست جدید VSR به نام WildVSR ایجاد می کنیم.سپس ما ارزیابی و تجزیه و تحلیل می کنیم که مدلهای VSR فعلی به داده های آزمون جدید تعمیم می یابد.ما طیف گسترده ای از مدل های VSR در دسترس عمومی را ارزیابی می کنیم و در مقایسه با نتایج LRS3 مربوطه ، قطرات قابل توجهی در عملکرد در مجموعه آزمون خود پیدا می کنیم.نتایج ما نشان می دهد که افزایش نرخ خطای کلمه به دلیل عدم توانایی مدل ها در تعمیم کمی سخت تر و در توالی لب وحشی از موارد موجود در مجموعه تست LRS3 ایجاد می شود.معیار آزمایش جدید ما به منظور امکان تحقیقات آینده در جهت مدل های قوی تر VSR ، علنی شده است.
| توجه کنید این مقاله به زبان انگلیسی است. |
|
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|


نقد و بررسیها
هنوز بررسیای ثبت نشده است.