,

مقاله محرک درون متنی بصری

10,000 تومان

عنوان مقاله به انگلیسی Visual In-Context Prompting
عنوان مقاله به فارسی مقاله محرک درون متنی بصری
نویسندگان Feng Li, Qing Jiang, Hao Zhang, Tianhe Ren, Shilong Liu, Xueyan Zou, Huaizhe Xu, Hongyang Li, Chunyuan Li, Jianwei Yang, Lei Zhang, Jianfeng Gao
زبان مقاله انگلیسی
فرمت مقاله: PDF
تعداد صفحات 0
دسته بندی موضوعات Computer Vision and Pattern Recognition,Artificial Intelligence,Machine Learning,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , یادگیری ماشین ,
توضیحات Submitted 22 November, 2023; originally announced November 2023. , Comments: technical report
توضیحات به فارسی ارسال شده 22 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد. نظرات: گزارش فنی

چکیده

In-context prompting in large language models (LLMs) has become a prevalent approach to improve zero-shot capabilities, but this idea is less explored in the vision domain. Existing visual prompting methods focus on referring segmentation to segment the most relevant object, falling short of addressing many generic vision tasks like open-set segmentation and detection. In this paper, we introduce a universal visual in-context prompting framework for both tasks. In particular, we build on top of an encoder-decoder architecture, and develop a versatile prompt encoder to support a variety of prompts like strokes, boxes, and points. We further enhance it to take an arbitrary number of reference image segments as the context. Our extensive explorations show that the proposed visual in-context prompting elicits extraordinary referring and generic segmentation capabilities to refer and detect, yielding competitive performance to close-set in-domain datasets and showing promising results on many open-set segmentation datasets. By joint training on COCO and SA-1B, our model achieves $57.7$ PQ on COCO and $23.2$ PQ on ADE20K. Code will be available at https://github.com/UX-Decoder/DINOv.

چکیده به فارسی (ترجمه ماشینی)

فرکانس متن در مدل های بزرگ زبان (LLMS) به یک رویکرد رایج برای بهبود قابلیت های شات صفر تبدیل شده است ، اما این ایده کمتر در حوزه بینایی مورد بررسی قرار می گیرد.روشهای فرکانس بصری موجود در مراجعه به تقسیم بندی به بخش مهمترین شیء متمرکز است و از پرداختن به بسیاری از کارهای بینایی عمومی مانند تقسیم بندی و تشخیص تنظیم باز کم می شود.در این مقاله ، ما یک چارچوب جهانی در زمینه تصویری را برای هر دو کار معرفی می کنیم.به طور خاص ، ما در بالای یک معماری رمزگذار اسکوتر قرار می گیریم و یک رمزگذار سریع همه کاره را برای پشتیبانی از انواع مختلفی مانند سکته ها ، جعبه ها و نقاط ایجاد می کنیم.ما بیشتر آن را تقویت می کنیم تا تعداد خودسرانه از بخش های تصویر مرجع را به عنوان زمینه بدست آوریم.اکتشافات گسترده ما نشان می دهد که در حال حاضر در مورد تصویری پیشنهادی ، باعث می شود قابلیت های ارجاع فوق العاده و تقسیم بندی عمومی برای مراجعه و تشخیص ، عملکرد رقابتی را به مجموعه داده های نزدیک به دامنه و نشان دادن نتایج امیدوارکننده در بسیاری از مجموعه داده های تقسیم بندی باز نشان دهد.با آموزش مشترک در مورد CoCo و SA-1B ، مدل ما به 57.7 دلار PQ در CoCo و 23.2 دلار PQ در ADE20K دست می یابد.کد در https://github.com/ux-decoder/dinov در دسترس خواهد بود.

توجه کنید این مقاله به زبان انگلیسی است.
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:

09395106248

توجه کنید که شرایط ترجمه به صورت زیر است:
  • قیمت هر صفحه ترجمه در حال حاضر 40 هزار تومان می باشد.
  • تحویل مقاله ترجمه شده به صورت فایل ورد می باشد.
  • زمان تحویل ترجمه مقاله در صورت داشتن تعداد صفحات عادی بین 3 تا 5 روز خواهد بود.
  • کیفیت ترجمه بسیار بالا می باشد. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
  • کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “مقاله محرک درون متنی بصری”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا