ترجمه فارسی مقاله JPEG-LM: LLMS به عنوان ژنراتور تصویر با بازنمایی های کدک متعارف

680,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	JPEG-LM: LLMs as Image Generators with Canonical Codec Representations
عنوان مقاله به فارسی	ترجمه فارسی مقاله JPEG-LM: LLMS به عنوان ژنراتور تصویر با بازنمایی های کدک متعارف
نویسندگان	Xiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	17
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Computation and Language,Computer Vision and Pattern Recognition,Machine Learning,محاسبات و زبان , چشم انداز رایانه و تشخیص الگوی , یادگیری ماشین ,
توضیحات	Submitted 20 August, 2024; v1 submitted 15 August, 2024; originally announced August 2024.
توضیحات به فارسی	20 اوت 2024 ارسال شد.V1 ارسال شده در 15 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Recent work in image and video generation has been adopting the autoregressive LLM architecture due to its generality and potentially easy integration into multi-modal systems. The crux of applying autoregressive training in language generation to visual generation is discretization — representing continuous data like images and videos as discrete tokens. Common methods of discretizing images and videos include modeling raw pixel values, which are prohibitively lengthy, or vector quantization, which requires convoluted pre-hoc training. In this work, we propose to directly model images and videos as compressed files saved on computers via canonical codecs (e.g., JPEG, AVC/H.264). Using the default Llama architecture without any vision-specific modifications, we pretrain JPEG-LM from scratch to generate images (and AVC-LM to generate videos as a proof of concept), by directly outputting compressed file bytes in JPEG and AVC formats. Evaluation of image generation shows that this simple and straightforward approach is more effective than pixel-based modeling and sophisticated vector quantization baselines (on which our method yields a 31% reduction in FID). Our analysis shows that JPEG-LM has an especial advantage over vector quantization models in generating long-tail visual elements. Overall, we show that using canonical codec representations can help lower the barriers between language generation and visual generation, facilitating future research on multi-modal language/image/video LLMs.

چکیده به فارسی (ترجمه ماشینی)

کار اخیر در تولید تصویر و فیلم به دلیل کلی بودن و ادغام بالقوه آسان در سیستم های چند مدلی ، معماری خود را در LLM اتخاذ کرده است.نکته اصلی استفاده از آموزش های خودکار در تولید زبان برای تولید بصری ، گسسته سازی است – نشان دهنده داده های مداوم مانند تصاویر و فیلم ها به عنوان نشانه های گسسته.روشهای متداول برای گسسته سازی تصاویر و فیلم ها شامل مدل سازی مقادیر پیکسل خام است که به طور گسترده ای طولانی و یا اندازه گیری بردار هستند که نیاز به آموزش قبل از تعقیب و گریز دارد.در این کار ، ما پیشنهاد می کنیم تصاویر و فیلم ها را مستقیماً به عنوان فایلهای فشرده شده ذخیره شده در رایانه ها از طریق کدک های متعارف (به عنوان مثال ، JPEG ، AVC/H.264) مدل کنیم.با استفاده از معماری پیش فرض LLAMA و بدون هیچ گونه اصلاح خاص بینایی ، ما JPEG-LM را از ابتدا برای تولید تصاویر (و AVC-LM برای تولید فیلم به عنوان اثبات مفهوم) از قبل استفاده می کنیم ، با تهیه مستقیم بایت های فشرده شده در قالب های JPEG و AVC.ارزیابی تولید تصویر نشان می دهد که این رویکرد ساده و سر راست نسبت به مدل سازی مبتنی بر پیکسل و پایه های کمیت بردار پیشرفته (که روش ما کاهش 31 ٪ در FID را به همراه دارد) مؤثرتر است.تجزیه و تحلیل ما نشان می دهد که JPEG-LM در تولید عناصر بصری با دم بلند ، یک مزیت ویژه نسبت به مدلهای کمیت بردار دارد.به طور کلی ، ما نشان می دهیم که استفاده از بازنمایی های کدک متعارف می تواند به کاهش موانع بین تولید زبان و تولید بصری کمک کند ، و تحقیقات آینده را در مورد زبان/تصویر چند منظوره LLMS تسهیل کند.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله JPEG-LM: LLMS به عنوان ژنراتور تصویر با بازنمایی های کدک متعارف”

ترجمه فارسی مقاله JPEG-LM: LLMS به عنوان ژنراتور تصویر با بازنمایی های کدک متعارف

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله کالیبراسیون جبران مغناطیسی هوای مغناطیسی در سیستم های ناوبری مغناطیسی با استفاده از شبکه های زمان ثابت مایع

مقاله طراحی الگوی سیگنال مرجع شانه برای ارتباطات و سنجش یکپارچه

مقاله تشخیص گسل سیستم قدرت با محاسبات کوانتومی و تجزیه دروازه کارآمد

مقاله ادغام تخریب و بازیابی ظریف از طریق سازگاری مبتنی بر نیاز