عنوان مقاله به انگلیسی | Prompt Recovery for Image Generation Models: A Comparative Study of Discrete Optimizers | ||||||||
عنوان مقاله به فارسی | ترجمه فارسی مقاله بازیابی سریع برای مدل های تولید تصویر: یک مطالعه مقایسه ای بهینه سازهای گسسته | ||||||||
نویسندگان | Joshua Nathaniel Williams, Avi Schwarzschild, J. Zico Kolter | ||||||||
فرمت مقاله انگلیسی | |||||||||
زبان مقاله تحویلی | ترجمه فارسی | ||||||||
فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
تعداد صفحات | 11 | ||||||||
لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
دسته بندی موضوعات | Computer Vision and Pattern Recognition,Machine Learning,چشم انداز رایانه و تشخیص الگوی , یادگیری ماشین , | ||||||||
توضیحات | Submitted 12 August, 2024; originally announced August 2024. , Comments: 9 Pages, 4 Figures | ||||||||
توضیحات به فارسی | ارائه شده 12 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 9 صفحه ، 4 شکل | ||||||||
اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Recovering natural language prompts for image generation models, solely based on the generated images is a difficult discrete optimization problem. In this work, we present the first head-to-head comparison of recent discrete optimization techniques for the problem of prompt inversion. We evaluate Greedy Coordinate Gradients (GCG), PEZ , Random Search, AutoDAN and BLIP2’s image captioner across various evaluation metrics related to the quality of inverted prompts and the quality of the images generated by the inverted prompts. We find that focusing on the CLIP similarity between the inverted prompts and the ground truth image acts as a poor proxy for the similarity between ground truth image and the image generated by the inverted prompts. While the discrete optimizers effectively minimize their objectives, simply using responses from a well-trained captioner often leads to generated images that more closely resemble those produced by the original prompts.
چکیده به فارسی (ترجمه ماشینی)
بازیابی زبان طبیعی برای مدل های تولید تصویر ، صرفاً بر اساس تصاویر تولید شده ، یک مشکل بهینه سازی گسسته دشوار است.در این کار ، ما اولین مقایسه سر به سر تکنیک های بهینه سازی گسسته اخیر را برای مشکل وارونگی سریع ارائه می دهیم.ما شیب های مختصات حریص (GCG) ، PEZ ، جستجوی تصادفی ، Autodan و BLIP2 را در معیارهای مختلف ارزیابی مربوط به کیفیت سوابق معکوس و کیفیت تصاویر تولید شده توسط اعلان های معکوس ارزیابی می کنیم.ما می دانیم که تمرکز بر شباهت کلیپ بین اعلان های معکوس و تصویر حقیقت زمین به عنوان یک پروکسی ضعیف برای شباهت بین تصویر حقیقت زمین و تصویر ایجاد شده توسط اعلان های معکوس عمل می کند.در حالی که بهینه سازهای گسسته به طور مؤثر اهداف خود را به حداقل می رسانند ، صرفاً استفاده از پاسخ های زیرنویس خوب آموزش دیده ، اغلب منجر به تصاویر تولید شده می شود که از نزدیک شبیه به تولیدات اصلی هستند.
فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
نقد و بررسیها
هنوز بررسیای ثبت نشده است.