ترجمه فارسی مقاله ادغام روایت‌های صوتی برای تقویت تعمیم دامنه در تشخیص اقدام اول شخص چندوجهی

100,000 تومان

عنوان مقاله به انگلیسی Integrating Audio Narrations to Strengthen Domain Generalization in Multimodal First-Person Action Recognition
عنوان مقاله به فارسی ترجمه فارسی مقاله ادغام روایت‌های صوتی برای تقویت تعمیم دامنه در تشخیص اقدام اول شخص چندوجهی
نویسندگان Cagri Gungor, Adriana Kovashka
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 5
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Computer Vision and Pattern Recognition,Artificial Intelligence,Machine Learning,Sound,Audio and Speech Processing,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , یادگیری ماشین , صدا , پردازش صوتی و گفتار ,
توضیحات Submitted 15 September, 2024; originally announced September 2024.
توضیحات به فارسی ارسال شده در 15 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

First-person activity recognition is rapidly growing due to the widespread use of wearable cameras but faces challenges from domain shifts across different environments, such as varying objects or background scenes. We propose a multimodal framework that improves domain generalization by integrating motion, audio, and appearance features. Key contributions include analyzing the resilience of audio and motion features to domain shifts, using audio narrations for enhanced audio-text alignment, and applying consistency ratings between audio and visual narrations to optimize the impact of audio in recognition during training. Our approach achieves state-of-the-art performance on the ARGO1M dataset, effectively generalizing across unseen scenarios and locations.

چکیده به فارسی (ترجمه ماشینی)

تشخیص فعالیت شخص اول به دلیل استفاده گسترده از دوربین های پوشیدنی به سرعت در حال رشد است اما با تغییر دامنه در محیط های مختلف مانند اشیاء مختلف یا صحنه های پس زمینه با چالش هایی روبرو است.ما یک چارچوب چند حالته را پیشنهاد می کنیم که با ادغام ویژگی های حرکت ، صوتی و ظاهر ، تعمیم دامنه را بهبود می بخشد.مشارکتهای کلیدی شامل تجزیه و تحلیل تاب آوری ویژگی های صوتی و حرکتی در تغییر دامنه ، استفاده از روایات صوتی برای تراز متن صوتی پیشرفته و استفاده از رتبه بندی قوام بین روایت های صوتی و تصویری برای بهینه سازی تأثیر صدا در تشخیص در طول آموزش است.رویکرد ما به عملکرد پیشرفته در مجموعه داده های ARGO1M می رسد ، و به طور موثری در سناریوها و مکان های غیب تعمیم می یابد.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله ادغام روایت‌های صوتی برای تقویت تعمیم دامنه در تشخیص اقدام اول شخص چندوجهی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا