عنوان مقاله به انگلیسی | Can Transformers Capture Spatial Relations between Objects? |
عنوان مقاله به فارسی | مقاله آیا ترانسفورماتورها می توانند روابط مکانی بین اشیاء را ضبط کنند؟ |
نویسندگان | Chuan Wen, Dinesh Jayaraman, Yang Gao |
زبان مقاله | انگلیسی |
فرمت مقاله: | |
تعداد صفحات | 21 |
دسته بندی موضوعات | Computer Vision and Pattern Recognition,Robotics,چشم انداز رایانه و تشخیص الگوی , روباتیک , |
توضیحات | Submitted 1 March, 2024; originally announced March 2024. , Comments: 21 pages, 8 figures, ICLR 2024 |
توضیحات به فارسی | ارسال 1 مارس 2024 ؛در ابتدا مارس 2024 اعلام شد ، نظرات: 21 صفحه ، 8 شکل ، ICLR 2024 |
چکیده
Spatial relationships between objects represent key scene information for humans to understand and interact with the world. To study the capability of current computer vision systems to recognize physically grounded spatial relations, we start by proposing precise relation definitions that permit consistently annotating a benchmark dataset. Despite the apparent simplicity of this task relative to others in the recognition literature, we observe that existing approaches perform poorly on this benchmark. We propose new approaches exploiting the long-range attention capabilities of transformers for this task, and evaluating key design principles. We identify a simple “RelatiViT” architecture and demonstrate that it outperforms all current approaches. To our knowledge, this is the first method to convincingly outperform naive baselines on spatial relation prediction in in-the-wild settings. The code and datasets are available in \url{https://sites.google.com/view/spatial-relation}.
چکیده به فارسی (ترجمه ماشینی)
روابط مکانی بین اشیاء نشان دهنده اطلاعات اصلی صحنه برای انسان برای درک و تعامل با جهان است.برای بررسی توانایی سیستم های دید رایانه فعلی برای تشخیص روابط مکانی مبتنی بر جسمی ، ما با ارائه تعاریف رابطه دقیق شروع می کنیم که اجازه می دهد به طور مداوم یک مجموعه داده معیار را حاشیه نویسی کنیم.با وجود سادگی ظاهری این کار نسبت به دیگران در ادبیات شناخت ، ما مشاهده می کنیم که رویکردهای موجود در این معیار عملکرد ضعیفی دارند.ما رویکردهای جدیدی را برای بهره برداری از قابلیت توجه دوربرد ترانسفورماتورها برای این کار و ارزیابی اصول طراحی کلیدی پیشنهاد می کنیم.ما یک معماری ساده “نسبیت” را شناسایی می کنیم و نشان می دهیم که از همه رویکردهای فعلی بهتر است.به دانش ما ، این اولین روش برای متقاعد کردن از خطوط اصلی ساده لوحانه در پیش بینی رابطه فضایی در تنظیمات درون وحشی است.کد و مجموعه داده ها در \ url {https://sites.google.com/view/spatial-relation} موجود است.
توجه کنید این مقاله به زبان انگلیسی است. |
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|
نقد و بررسیها
هنوز بررسیای ثبت نشده است.