ترجمه فارسی مقاله CROME: آداپتورهای متقاطع برای LLM چندوجهی کارآمد

680,000 تومان

عنوان مقاله به انگلیسی CROME: Cross-Modal Adapters for Efficient Multimodal LLM
عنوان مقاله به فارسی ترجمه فارسی مقاله CROME: آداپتورهای متقاطع برای LLM چندوجهی کارآمد
نویسندگان Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 17
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Computer Vision and Pattern Recognition,Computation and Language,Machine Learning,چشم انداز رایانه و تشخیص الگوی , محاسبه و زبان , یادگیری ماشین ,
توضیحات Submitted 12 August, 2024; originally announced August 2024.
توضیحات به فارسی ارائه شده 12 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Multimodal Large Language Models (MLLMs) demonstrate remarkable image-language capabilities, but their widespread use faces challenges in cost-effective training and adaptation. Existing approaches often necessitate expensive language model retraining and limited adaptability. Additionally, the current focus on zero-shot performance improvements offers insufficient guidance for task-specific tuning. We propose CROME, an efficient vision-language instruction tuning framework. It features a novel gated cross-modal adapter that effectively combines visual and textual representations prior to input into a frozen LLM. This lightweight adapter, trained with minimal parameters, enables efficient cross-modal understanding. Notably, CROME demonstrates superior zero-shot performance on standard visual question answering and instruction-following benchmarks. Moreover, it yields fine-tuning with exceptional parameter efficiency, competing with task-specific specialist state-of-the-art methods. CROME demonstrates the potential of pre-LM alignment for building scalable, adaptable, and parameter-efficient multimodal models.

چکیده به فارسی (ترجمه ماشینی)

مدل های بزرگ زبان چند حالته (MLLMS) قابلیت های قابل توجه زبان را نشان می دهند ، اما استفاده گسترده آنها در آموزش و سازگاری مقرون به صرفه با چالش هایی روبرو است.رویکردهای موجود اغلب به بازآموزی مدل زبان گران و سازگاری محدود نیاز دارند.علاوه بر این ، تمرکز فعلی بر روی بهبود عملکرد صفر-شات ، راهنمایی کافی برای تنظیم خاص کار را ارائه نمی دهد.ما Crome ، یک چارچوب تنظیم دستورالعمل بینایی زبان را پیشنهاد می کنیم.این دستگاه دارای یک آداپتور متقاطع متقاطع است که به طور موثری بازنمایی های بصری و متنی را قبل از ورود به یک LLM منجمد ترکیب می کند.این آداپتور سبک ، که با پارامترهای حداقل آموزش دیده است ، درک متقاطع کارآمد را امکان پذیر می کند.نکته قابل توجه ، Crome عملکرد صفر برتر را در پاسخ به سؤال بصری استاندارد و معیارهای پیروی از آموزش نشان می دهد.علاوه بر این ، این تنظیم دقیق با راندمان پارامتر استثنایی ، با روشهای پیشرفته و متخصص خاص کار ، رقابت می کند.Crome پتانسیل تراز قبل از LM را برای ساخت مدلهای چند مدلی مقیاس پذیر ، سازگار و کارآمد پارامتر نشان می دهد.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله CROME: آداپتورهای متقاطع برای LLM چندوجهی کارآمد”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا