| عنوان مقاله به انگلیسی | Understanding the Vulnerability of CLIP to Image Compression |
| عنوان مقاله به فارسی | مقاله درک آسیب پذیری CLIP نسبت به فشرده سازی تصویر |
| نویسندگان | Cangxiong Chen, Vinay P. Namboodiri, Julian Padget |
| زبان مقاله | انگلیسی |
| فرمت مقاله: | |
| تعداد صفحات | 0 |
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Machine Learning,چشم انداز رایانه و تشخیص الگوی , یادگیری ماشین , |
| توضیحات | Submitted 23 November, 2023; originally announced November 2023. , Comments: R0-FoMo: Workshop on Robustness of Few-shot and Zero-shot Learning in Foundation Models at NeurIPS 2023 |
| توضیحات به فارسی | ارسال شده 23 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد. ، نظرات: R0-FOMO: کارگاه استحکام چند عکس و یادگیری صفر در مدلهای بنیاد در Neurips 2023 |
چکیده
CLIP is a widely used foundational vision-language model that is used for zero-shot image recognition and other image-text alignment tasks. We demonstrate that CLIP is vulnerable to change in image quality under compression. This surprising result is further analysed using an attribution method-Integrated Gradients. Using this attribution method, we are able to better understand both quantitatively and qualitatively exactly the nature in which the compression affects the zero-shot recognition accuracy of this model. We evaluate this extensively on CIFAR-10 and STL-10. Our work provides the basis to understand this vulnerability of CLIP and can help us develop more effective methods to improve the robustness of CLIP and other vision-language models.
چکیده به فارسی (ترجمه ماشینی)
Clip یک مدل اساسی به زبان بنیادی است که برای تشخیص تصویر صفر و سایر کارهای تراز تصویر استفاده می شود.ما نشان می دهیم که کلیپ در برابر تغییر کیفیت تصویر تحت فشرده سازی آسیب پذیر است.این نتیجه غافلگیرکننده بیشتر با استفاده از شیب های یکپارچه روش انتساب مورد تجزیه و تحلیل قرار می گیرد.با استفاده از این روش انتساب ، ما قادر به درک بهتر هم از نظر کمی و هم از لحاظ کیفی دقیقاً ماهیتی هستیم که در آن فشرده سازی بر دقت تشخیص صفر این مدل تأثیر می گذارد.ما این موضوع را به طور گسترده در CIFAR-10 و STL-10 ارزیابی می کنیم.کار ما پایه و اساس درک این آسیب پذیری کلیپ را فراهم می کند و می تواند به ما کمک کند تا روشهای مؤثرتری را برای بهبود استحکام کلیپ و سایر مدلهای بینایی زبان توسعه دهیم.
| توجه کنید این مقاله به زبان انگلیسی است. |
|
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|


نقد و بررسیها
هنوز بررسیای ثبت نشده است.