| عنوان مقاله به انگلیسی | A Spitting Image: Modular Superpixel Tokenization in Vision Transformers | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله تصویر تفکی: توکن سازی سوپرپیکسلی مدولار در Vision Transformers | ||||||||
| نویسندگان | Marius Aasan, Odd Kolbjørnsen, Anne Schistad Solberg, Adín Ramirez Rivera | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 36 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Artificial Intelligence,Machine Learning,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 15 August, 2024; v1 submitted 14 August, 2024; originally announced August 2024. , Comments: To appear in ECCV (MELEX) 2024 Workshop Proceedings , MSC Class: 68T45 ACM Class: I.2.10; I.4.10 | ||||||||
| توضیحات به فارسی | ارسال شده در 15 اوت 2024 ؛V1 ارسال شده در 14 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: برای حضور در مجموعه مقالات کارگاه ECCV (MELEX) 2024 ، کلاس MSC: 68T45 کلاس ACM: I.2.10 ؛I.4.10 | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Vision Transformer (ViT) architectures traditionally employ a grid-based approach to tokenization independent of the semantic content of an image. We propose a modular superpixel tokenization strategy which decouples tokenization and feature extraction; a shift from contemporary approaches where these are treated as an undifferentiated whole. Using on-line content-aware tokenization and scale- and shape-invariant positional embeddings, we perform experiments and ablations that contrast our approach with patch-based tokenization and randomized partitions as baselines. We show that our method significantly improves the faithfulness of attributions, gives pixel-level granularity on zero-shot unsupervised dense prediction tasks, while maintaining predictive performance in classification tasks. Our approach provides a modular tokenization framework commensurable with standard architectures, extending the space of ViTs to a larger class of semantically-rich models.
چکیده به فارسی (ترجمه ماشینی)
معماری های ترانسفورماتور Vision (VIT) به طور سنتی از یک رویکرد مبتنی بر شبکه برای نشانه گذاری مستقل از محتوای معنایی یک تصویر استفاده می کنند.ما یک استراتژی توکن سازی فوق العاده ماژولار را پیشنهاد می کنیم که نشانه گذاری و استخراج ویژگی ها را از بین می برد.تغییر از رویکردهای معاصر که در آن اینها به عنوان یک کل تمایز نیافته رفتار می شوند.با استفاده از نشانه های آگاه از محتوای آنلاین و تعبیه های موقعیتی مقیاس و شکل-متغیر ، آزمایش ها و فرسایش هایی را انجام می دهیم که رویکرد ما را با نشانه بندی مبتنی بر پچ و پارتیشن های تصادفی به عنوان خط مقدم در تضاد می کند.ما نشان می دهیم که روش ما به طور قابل توجهی وفاداری نسبت به ویژگی ها را بهبود می بخشد ، در حالی که عملکرد پیش بینی کننده در کارهای طبقه بندی را حفظ می کند ، در کارهای پیش بینی متراکم بدون کنترل صفر ، در سطح صفر و بدون نظارت ، در سطح پیکسل می دهد.رویکرد ما یک چارچوب توکن سازی ماژولار را با معماری های استاندارد ارائه می دهد و فضای VITS را به یک کلاس بزرگتر از مدل های معنایی غنی می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.