| عنوان مقاله به انگلیسی | Integrating Audio Narrations to Strengthen Domain Generalization in Multimodal First-Person Action Recognition | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله ادغام روایتهای صوتی برای تقویت تعمیم دامنه در تشخیص اقدام اول شخص چندوجهی | ||||||||
| نویسندگان | Cagri Gungor, Adriana Kovashka | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 5 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Artificial Intelligence,Machine Learning,Sound,Audio and Speech Processing,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , یادگیری ماشین , صدا , پردازش صوتی و گفتار , | ||||||||
| توضیحات | Submitted 15 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارسال شده در 15 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
First-person activity recognition is rapidly growing due to the widespread use of wearable cameras but faces challenges from domain shifts across different environments, such as varying objects or background scenes. We propose a multimodal framework that improves domain generalization by integrating motion, audio, and appearance features. Key contributions include analyzing the resilience of audio and motion features to domain shifts, using audio narrations for enhanced audio-text alignment, and applying consistency ratings between audio and visual narrations to optimize the impact of audio in recognition during training. Our approach achieves state-of-the-art performance on the ARGO1M dataset, effectively generalizing across unseen scenarios and locations.
چکیده به فارسی (ترجمه ماشینی)
تشخیص فعالیت شخص اول به دلیل استفاده گسترده از دوربین های پوشیدنی به سرعت در حال رشد است اما با تغییر دامنه در محیط های مختلف مانند اشیاء مختلف یا صحنه های پس زمینه با چالش هایی روبرو است.ما یک چارچوب چند حالته را پیشنهاد می کنیم که با ادغام ویژگی های حرکت ، صوتی و ظاهر ، تعمیم دامنه را بهبود می بخشد.مشارکتهای کلیدی شامل تجزیه و تحلیل تاب آوری ویژگی های صوتی و حرکتی در تغییر دامنه ، استفاده از روایات صوتی برای تراز متن صوتی پیشرفته و استفاده از رتبه بندی قوام بین روایت های صوتی و تصویری برای بهینه سازی تأثیر صدا در تشخیص در طول آموزش است.رویکرد ما به عملکرد پیشرفته در مجموعه داده های ARGO1M می رسد ، و به طور موثری در سناریوها و مکان های غیب تعمیم می یابد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.