| عنوان مقاله به انگلیسی | StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله StitchFusion: ترکیب هر روش بصری برای بهبود تقسیمبندی معنایی چندوجهی |
| نویسندگان | Bingyu Li, Da Zhang, Zhiyuan Zhao, Junyu Gao, Xuelong Li |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 12 |
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Artificial Intelligence,Machine Learning,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , یادگیری ماشین , |
| توضیحات | Submitted 2 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده در 2 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 480,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Multimodal semantic segmentation shows significant potential for enhancing segmentation accuracy in complex scenes. However, current methods often incorporate specialized feature fusion modules tailored to specific modalities, thereby restricting input flexibility and increasing the number of training parameters. To address these challenges, we propose StitchFusion, a straightforward yet effective modal fusion framework that integrates large-scale pre-trained models directly as encoders and feature fusers. This approach facilitates comprehensive multi-modal and multi-scale feature fusion, accommodating any visual modal inputs. Specifically, Our framework achieves modal integration during encoding by sharing multi-modal visual information. To enhance information exchange across modalities, we introduce a multi-directional adapter module (MultiAdapter) to enable cross-modal information transfer during encoding. By leveraging MultiAdapter to propagate multi-scale information across pre-trained encoders during the encoding process, StitchFusion achieves multi-modal visual information integration during encoding. Extensive comparative experiments demonstrate that our model achieves state-of-the-art performance on four multi-modal segmentation datasets with minimal additional parameters. Furthermore, the experimental integration of MultiAdapter with existing Feature Fusion Modules (FFMs) highlights their complementary nature. Our code is available at StitchFusion_repo.
چکیده به فارسی (ترجمه ماشینی)
تقسیم معنایی چند حالته پتانسیل قابل توجهی برای افزایش دقت تقسیم بندی در صحنه های پیچیده را نشان می دهد.با این حال ، روشهای فعلی اغلب ماژول های فیوژن تخصصی متناسب با روشهای خاص را در بر می گیرند ، در نتیجه انعطاف پذیری ورودی را محدود می کنند و تعداد پارامترهای آموزشی را افزایش می دهند.برای پرداختن به این چالش ها ، ما StitchFusion را پیشنهاد می کنیم ، یک چارچوب همجوشی معین و در عین حال مؤثر که مدلهای از پیش آموزش در مقیاس بزرگ را مستقیماً به عنوان رمزگذار و فیوزرهای ویژگی ادغام می کند.این رویکرد همجوشی جامع چند منظوره و چند مقیاس را تسهیل می کند و هرگونه ورودی معین بصری را در خود جای می دهد.به طور خاص ، چارچوب ما با به اشتراک گذاری اطلاعات بصری چند منظوره به ادغام معین در طول رمزگذاری دست می یابد.برای تقویت تبادل اطلاعات در روش ها ، ما یک ماژول آداپتور چند جهته (چند منظوره) را معرفی می کنیم تا انتقال اطلاعات متقابل را در حین رمزگذاری فعال کنیم.با استفاده از چند منظوره برای انتشار اطلاعات چند مقیاس در طول رمزگذارهای از پیش آموزش دیده در طی فرآیند رمزگذاری ، StitchFusion به ادغام اطلاعات بصری چند منظوره در طول رمزگذاری دست می یابد.آزمایش های مقایسه ای گسترده نشان می دهد که مدل ما در چهار مجموعه داده تقسیم بندی چند منظوره با حداقل پارامترهای اضافی به عملکرد پیشرفته می رسد.علاوه بر این ، ادغام تجربی چند منظوره با ماژول های فیوژن ویژگی موجود (FFMS) ماهیت مکمل آنها را برجسته می کند.کد ما در stitchfusion_repo در دسترس است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.