| عنوان مقاله به انگلیسی | JPEG-LM: LLMs as Image Generators with Canonical Codec Representations | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله JPEG-LM: LLMS به عنوان ژنراتور تصویر با بازنمایی های کدک متعارف | ||||||||
| نویسندگان | Xiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 17 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Computation and Language,Computer Vision and Pattern Recognition,Machine Learning,محاسبات و زبان , چشم انداز رایانه و تشخیص الگوی , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 20 August, 2024; v1 submitted 15 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | 20 اوت 2024 ارسال شد.V1 ارسال شده در 15 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Recent work in image and video generation has been adopting the autoregressive LLM architecture due to its generality and potentially easy integration into multi-modal systems. The crux of applying autoregressive training in language generation to visual generation is discretization — representing continuous data like images and videos as discrete tokens. Common methods of discretizing images and videos include modeling raw pixel values, which are prohibitively lengthy, or vector quantization, which requires convoluted pre-hoc training. In this work, we propose to directly model images and videos as compressed files saved on computers via canonical codecs (e.g., JPEG, AVC/H.264). Using the default Llama architecture without any vision-specific modifications, we pretrain JPEG-LM from scratch to generate images (and AVC-LM to generate videos as a proof of concept), by directly outputting compressed file bytes in JPEG and AVC formats. Evaluation of image generation shows that this simple and straightforward approach is more effective than pixel-based modeling and sophisticated vector quantization baselines (on which our method yields a 31% reduction in FID). Our analysis shows that JPEG-LM has an especial advantage over vector quantization models in generating long-tail visual elements. Overall, we show that using canonical codec representations can help lower the barriers between language generation and visual generation, facilitating future research on multi-modal language/image/video LLMs.
چکیده به فارسی (ترجمه ماشینی)
کار اخیر در تولید تصویر و فیلم به دلیل کلی بودن و ادغام بالقوه آسان در سیستم های چند مدلی ، معماری خود را در LLM اتخاذ کرده است.نکته اصلی استفاده از آموزش های خودکار در تولید زبان برای تولید بصری ، گسسته سازی است – نشان دهنده داده های مداوم مانند تصاویر و فیلم ها به عنوان نشانه های گسسته.روشهای متداول برای گسسته سازی تصاویر و فیلم ها شامل مدل سازی مقادیر پیکسل خام است که به طور گسترده ای طولانی و یا اندازه گیری بردار هستند که نیاز به آموزش قبل از تعقیب و گریز دارد.در این کار ، ما پیشنهاد می کنیم تصاویر و فیلم ها را مستقیماً به عنوان فایلهای فشرده شده ذخیره شده در رایانه ها از طریق کدک های متعارف (به عنوان مثال ، JPEG ، AVC/H.264) مدل کنیم.با استفاده از معماری پیش فرض LLAMA و بدون هیچ گونه اصلاح خاص بینایی ، ما JPEG-LM را از ابتدا برای تولید تصاویر (و AVC-LM برای تولید فیلم به عنوان اثبات مفهوم) از قبل استفاده می کنیم ، با تهیه مستقیم بایت های فشرده شده در قالب های JPEG و AVC.ارزیابی تولید تصویر نشان می دهد که این رویکرد ساده و سر راست نسبت به مدل سازی مبتنی بر پیکسل و پایه های کمیت بردار پیشرفته (که روش ما کاهش 31 ٪ در FID را به همراه دارد) مؤثرتر است.تجزیه و تحلیل ما نشان می دهد که JPEG-LM در تولید عناصر بصری با دم بلند ، یک مزیت ویژه نسبت به مدلهای کمیت بردار دارد.به طور کلی ، ما نشان می دهیم که استفاده از بازنمایی های کدک متعارف می تواند به کاهش موانع بین تولید زبان و تولید بصری کمک کند ، و تحقیقات آینده را در مورد زبان/تصویر چند منظوره LLMS تسهیل کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.