| عنوان مقاله به انگلیسی | Robust Domain Generalization for Multi-modal Object Recognition |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله تعمیم دامنه مقاوم برای تشخیص شیء چندوجهی |
| نویسندگان | Yuxin Qiao, Keqin Li, Junhong Lin, Rong Wei, Chufeng Jiang, Yang Luo, Haoyu Yang |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 6 |
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Artificial Intelligence,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , |
| توضیحات | Submitted 11 August, 2024; originally announced August 2024. , Comments: 6 pages, 2 figures. This is a preprint version of the article. The final version will be published in the proceedings of the IEEE conference |
| توضیحات به فارسی | ارسال شده در 11 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 6 صفحه ، 2 شکل.این یک نسخه پیش نویس مقاله است.نسخه نهایی در مجموعه مقالات کنفرانس IEEE منتشر می شود |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 240,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
In multi-label classification, machine learning encounters the challenge of domain generalization when handling tasks with distributions differing from the training data. Existing approaches primarily focus on vision object recognition and neglect the integration of natural language. Recent advancements in vision-language pre-training leverage supervision from extensive visual-language pairs, enabling learning across diverse domains and enhancing recognition in multi-modal scenarios. However, these approaches face limitations in loss function utilization, generality across backbones, and class-aware visual fusion. This paper proposes solutions to these limitations by inferring the actual loss, broadening evaluations to larger vision-language backbones, and introducing Mixup-CLIPood, which incorporates a novel mix-up loss for enhanced class-aware visual fusion. Our method demonstrates superior performance in domain generalization across multiple datasets.
چکیده به فارسی (ترجمه ماشینی)
در طبقه بندی چند برچسب ، یادگیری ماشین هنگام انجام وظایف با توزیع های متفاوت از داده های آموزش ، با چالش تعمیم دامنه روبرو می شود.رویکردهای موجود در درجه اول بر شناخت شیء بینایی متمرکز شده و از ادغام زبان طبیعی غفلت می کنند.پیشرفت های اخیر در نظارت بر اهرم قبل از آموزش چشم انداز از جفت های گسترده به زبان بصری ، امکان یادگیری در حوزه های متنوع و تقویت شناخت در سناریوهای چند منظوره.با این حال ، این رویکردها با محدودیت در استفاده از عملکرد از دست دادن ، کلی بودن در ستون فقرات و همجوشی بصری آگاه کلاس روبرو هستند.در این مقاله با استنباط از دست دادن واقعی ، گسترش ارزیابی به ستون فقرات بزرگتر به زبان و معرفی مخلوط کردن مخلوط ، راه حل هایی برای این محدودیت ها ارائه می دهد ، که شامل یک از دست دادن مخلوط جدید برای همجوشی بصری پیشرفته کلاس است.روش ما عملکرد برتر در تعمیم دامنه در چندین مجموعه داده را نشان می دهد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.