مقاله Lego: یادگیری تفکیک و معکوس کردن مفاهیم فراتر از ظاهر شیء در مدل های انتشار متن به تصویر

10,000 تومان

دسته: دسته-بندی-نشده, مقاله علمی برچسب: Computation and Language, Computer Vision and Pattern Recognition, Machine Learning, چشم انداز رایانه و تشخیص الگوی, محاسبه و زبان, یادگیری ماشین

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Lego: Learning to Disentangle and Invert Concepts Beyond Object Appearance in Text-to-Image Diffusion Models
عنوان مقاله به فارسی	مقاله Lego: یادگیری تفکیک و معکوس کردن مفاهیم فراتر از ظاهر شیء در مدل های انتشار متن به تصویر
نویسندگان	Saman Motamed, Danda Pani Paudel, Luc Van Gool
زبان مقاله	انگلیسی
فرمت مقاله:	PDF
تعداد صفحات	0
دسته بندی موضوعات	Computer Vision and Pattern Recognition,Computation and Language,Machine Learning,چشم انداز رایانه و تشخیص الگوی , محاسبه و زبان , یادگیری ماشین ,
توضیحات	Submitted 23 November, 2023; originally announced November 2023.
توضیحات به فارسی	ارسال شده 23 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد.

چکیده

Diffusion models have revolutionized generative content creation and text-to-image (T2I) diffusion models in particular have increased the creative freedom of users by allowing scene synthesis using natural language. T2I models excel at synthesizing concepts such as nouns, appearances, and styles. To enable customized content creation based on a few example images of a concept, methods such as Textual Inversion and DreamBooth invert the desired concept and enable synthesizing it in new scenes. However, inverting more general concepts that go beyond object appearance and style (adjectives and verbs) through natural language, remains a challenge. Two key characteristics of these concepts contribute to the limitations of current inversion methods. 1) Adjectives and verbs are entangled with nouns (subject) and can hinder appearance-based inversion methods, where the subject appearance leaks into the concept embedding and 2) describing such concepts often extends beyond single word embeddings (being frozen in ice, walking on a tightrope, etc.) that current methods do not handle. In this study, we introduce Lego, a textual inversion method designed to invert subject entangled concepts from a few example images. Lego disentangles concepts from their associated subjects using a simple yet effective Subject Separation step and employs a Context Loss that guides the inversion of single/multi-embedding concepts. In a thorough user study, Lego-generated concepts were preferred over 70% of the time when compared to the baseline. Additionally, visual question answering using a large language model suggested Lego-generated concepts are better aligned with the text description of the concept.

چکیده به فارسی (ترجمه ماشینی)

مدل های انتشار باعث ایجاد محتوای تولیدی و مدل های انتشار متن به تصویر (T2I) به ویژه با اجازه دادن به سنتز صحنه با استفاده از زبان طبیعی ، آزادی خلاق کاربران را افزایش داده اند.مدل های T2I در ترکیب مفاهیم مانند اسم ، ظواهر و سبک ها برتری دارند.برای فعال کردن ایجاد محتوای سفارشی بر اساس چند تصویر نمونه از یک مفهوم ، روش هایی مانند وارونگی متنی و رویایی مفهوم مورد نظر را معکوس کرده و سنتز کردن آن را در صحنه های جدید امکان پذیر می کند.با این حال ، معکوس کردن مفاهیم کلی تر که فراتر از ظاهر و سبک (صفت ها و افعال) از طریق زبان طبیعی است ، همچنان یک چالش است.دو ویژگی اصلی این مفاهیم به محدودیت های روش های وارونگی فعلی کمک می کند.1) صفت ها و افعال درگیر اسمها (موضوع) هستند و می توانند مانع از روشهای وارونگی مبتنی بر ظاهر شوند ، جایی که ظاهر موضوع در تعبیه مفهوم نشت می کند و 2) توصیف چنین مفاهیمی اغلب فراتر از تعبیه های کلمه ای (یخ زده در یخ ، قدم زدن بر روی آن قرار می گیرد.یک تنگه ، و غیره) که روشهای فعلی از آن استفاده نمی کنند.در این مطالعه ، LEGO را معرفی می کنیم ، یک روش وارونگی متنی که برای معکوس کردن مفاهیم درگیر از چند تصویر مثال طراحی شده است.LEGO مفاهیم را از موضوعات مرتبط با آنها با استفاده از یک مرحله جداسازی موضوع ساده و در عین حال مؤثر جدا می کند و از دست دادن متن استفاده می کند که وارونگی مفاهیم تک/چند تعبیه شده را راهنمایی می کند.در یک مطالعه کامل کاربر ، مفاهیم تولید شده توسط LEG بیش از 70 ٪ از زمان مقایسه با پایه ترجیح داده شدند.علاوه بر این ، پاسخ به سؤال بصری با استفاده از یک مدل بزرگ زبان ، مفاهیم تولید شده توسط LEGO را بهتر با توضیحات متن مفهوم هماهنگ می کنند.

توجه کنید این مقاله به زبان انگلیسی است.

برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:

09395106248

توجه کنید که شرایط ترجمه به صورت زیر است:

قیمت هر صفحه ترجمه در حال حاضر 40 هزار تومان می باشد.
تحویل مقاله ترجمه شده به صورت فایل ورد می باشد.
زمان تحویل ترجمه مقاله در صورت داشتن تعداد صفحات عادی بین 3 تا 5 روز خواهد بود.
کیفیت ترجمه بسیار بالا می باشد. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “مقاله Lego: یادگیری تفکیک و معکوس کردن مفاهیم فراتر از ظاهر شیء در مدل های انتشار متن به تصویر”

مقاله Lego: یادگیری تفکیک و معکوس کردن مفاهیم فراتر از ظاهر شیء در مدل های انتشار متن به تصویر

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله ترمیم تصویر: تجزیه و تحلیل مقایسه ای از تصویر با استفاده از تکنیک های مختلف فیلتر مکانی

مقاله همجوشی استریو چند طیفی برای بازسازی صحنه 3D hyperspectral

مقاله یک رویکرد کنترل بهینه سازگار به حداکثر رعایت عمق یکپارچه

مقاله یک مطالعه تجربی در مورد تأثیر رمزگذاری موقعیتی در تقویت گفتار تک صدایی مبتنی بر ترانسفورماتور