| عنوان مقاله به انگلیسی | Visual In-Context Prompting |
| عنوان مقاله به فارسی | مقاله محرک درون متنی بصری |
| نویسندگان | Feng Li, Qing Jiang, Hao Zhang, Tianhe Ren, Shilong Liu, Xueyan Zou, Huaizhe Xu, Hongyang Li, Chunyuan Li, Jianwei Yang, Lei Zhang, Jianfeng Gao |
| زبان مقاله | انگلیسی |
| فرمت مقاله: | |
| تعداد صفحات | 0 |
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Artificial Intelligence,Machine Learning,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , یادگیری ماشین , |
| توضیحات | Submitted 22 November, 2023; originally announced November 2023. , Comments: technical report |
| توضیحات به فارسی | ارسال شده 22 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد. نظرات: گزارش فنی |
چکیده
In-context prompting in large language models (LLMs) has become a prevalent approach to improve zero-shot capabilities, but this idea is less explored in the vision domain. Existing visual prompting methods focus on referring segmentation to segment the most relevant object, falling short of addressing many generic vision tasks like open-set segmentation and detection. In this paper, we introduce a universal visual in-context prompting framework for both tasks. In particular, we build on top of an encoder-decoder architecture, and develop a versatile prompt encoder to support a variety of prompts like strokes, boxes, and points. We further enhance it to take an arbitrary number of reference image segments as the context. Our extensive explorations show that the proposed visual in-context prompting elicits extraordinary referring and generic segmentation capabilities to refer and detect, yielding competitive performance to close-set in-domain datasets and showing promising results on many open-set segmentation datasets. By joint training on COCO and SA-1B, our model achieves $57.7$ PQ on COCO and $23.2$ PQ on ADE20K. Code will be available at https://github.com/UX-Decoder/DINOv.
چکیده به فارسی (ترجمه ماشینی)
فرکانس متن در مدل های بزرگ زبان (LLMS) به یک رویکرد رایج برای بهبود قابلیت های شات صفر تبدیل شده است ، اما این ایده کمتر در حوزه بینایی مورد بررسی قرار می گیرد.روشهای فرکانس بصری موجود در مراجعه به تقسیم بندی به بخش مهمترین شیء متمرکز است و از پرداختن به بسیاری از کارهای بینایی عمومی مانند تقسیم بندی و تشخیص تنظیم باز کم می شود.در این مقاله ، ما یک چارچوب جهانی در زمینه تصویری را برای هر دو کار معرفی می کنیم.به طور خاص ، ما در بالای یک معماری رمزگذار اسکوتر قرار می گیریم و یک رمزگذار سریع همه کاره را برای پشتیبانی از انواع مختلفی مانند سکته ها ، جعبه ها و نقاط ایجاد می کنیم.ما بیشتر آن را تقویت می کنیم تا تعداد خودسرانه از بخش های تصویر مرجع را به عنوان زمینه بدست آوریم.اکتشافات گسترده ما نشان می دهد که در حال حاضر در مورد تصویری پیشنهادی ، باعث می شود قابلیت های ارجاع فوق العاده و تقسیم بندی عمومی برای مراجعه و تشخیص ، عملکرد رقابتی را به مجموعه داده های نزدیک به دامنه و نشان دادن نتایج امیدوارکننده در بسیاری از مجموعه داده های تقسیم بندی باز نشان دهد.با آموزش مشترک در مورد CoCo و SA-1B ، مدل ما به 57.7 دلار PQ در CoCo و 23.2 دلار PQ در ADE20K دست می یابد.کد در https://github.com/ux-decoder/dinov در دسترس خواهد بود.
| توجه کنید این مقاله به زبان انگلیسی است. |
|
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|


نقد و بررسیها
هنوز بررسیای ثبت نشده است.