عنوان مقاله به انگلیسی | CROME: Cross-Modal Adapters for Efficient Multimodal LLM | ||||||||
عنوان مقاله به فارسی | ترجمه فارسی مقاله CROME: آداپتورهای متقاطع برای LLM چندوجهی کارآمد | ||||||||
نویسندگان | Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister | ||||||||
فرمت مقاله انگلیسی | |||||||||
زبان مقاله تحویلی | ترجمه فارسی | ||||||||
فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
تعداد صفحات | 17 | ||||||||
لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
دسته بندی موضوعات | Computer Vision and Pattern Recognition,Computation and Language,Machine Learning,چشم انداز رایانه و تشخیص الگوی , محاسبه و زبان , یادگیری ماشین , | ||||||||
توضیحات | Submitted 12 August, 2024; originally announced August 2024. | ||||||||
توضیحات به فارسی | ارائه شده 12 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Multimodal Large Language Models (MLLMs) demonstrate remarkable image-language capabilities, but their widespread use faces challenges in cost-effective training and adaptation. Existing approaches often necessitate expensive language model retraining and limited adaptability. Additionally, the current focus on zero-shot performance improvements offers insufficient guidance for task-specific tuning. We propose CROME, an efficient vision-language instruction tuning framework. It features a novel gated cross-modal adapter that effectively combines visual and textual representations prior to input into a frozen LLM. This lightweight adapter, trained with minimal parameters, enables efficient cross-modal understanding. Notably, CROME demonstrates superior zero-shot performance on standard visual question answering and instruction-following benchmarks. Moreover, it yields fine-tuning with exceptional parameter efficiency, competing with task-specific specialist state-of-the-art methods. CROME demonstrates the potential of pre-LM alignment for building scalable, adaptable, and parameter-efficient multimodal models.
چکیده به فارسی (ترجمه ماشینی)
مدل های بزرگ زبان چند حالته (MLLMS) قابلیت های قابل توجه زبان را نشان می دهند ، اما استفاده گسترده آنها در آموزش و سازگاری مقرون به صرفه با چالش هایی روبرو است.رویکردهای موجود اغلب به بازآموزی مدل زبان گران و سازگاری محدود نیاز دارند.علاوه بر این ، تمرکز فعلی بر روی بهبود عملکرد صفر-شات ، راهنمایی کافی برای تنظیم خاص کار را ارائه نمی دهد.ما Crome ، یک چارچوب تنظیم دستورالعمل بینایی زبان را پیشنهاد می کنیم.این دستگاه دارای یک آداپتور متقاطع متقاطع است که به طور موثری بازنمایی های بصری و متنی را قبل از ورود به یک LLM منجمد ترکیب می کند.این آداپتور سبک ، که با پارامترهای حداقل آموزش دیده است ، درک متقاطع کارآمد را امکان پذیر می کند.نکته قابل توجه ، Crome عملکرد صفر برتر را در پاسخ به سؤال بصری استاندارد و معیارهای پیروی از آموزش نشان می دهد.علاوه بر این ، این تنظیم دقیق با راندمان پارامتر استثنایی ، با روشهای پیشرفته و متخصص خاص کار ، رقابت می کند.Crome پتانسیل تراز قبل از LM را برای ساخت مدلهای چند مدلی مقیاس پذیر ، سازگار و کارآمد پارامتر نشان می دهد.
فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
نقد و بررسیها
هنوز بررسیای ثبت نشده است.