| عنوان مقاله به انگلیسی | CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله CoMMIT: تنظیم هماهنگ دستورالعملها برای مدلهای زبانی بزرگ چندوجهی |
| نویسندگان | Junda Wu, Xintong Li, Tong Yu, Yu Wang, Xiang Chen, Jiuxiang Gu, Lina Yao, Jingbo Shang, Julian McAuley |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 14 |
| دسته بندی موضوعات | Machine Learning,Computation and Language,یادگیری ماشین , محاسبه و زبان , |
| توضیحات | Submitted 29 July, 2024; originally announced July 2024. , Comments: 9 pages |
| توضیحات به فارسی | ارسال 29 ژوئیه 2024 ؛در ابتدا ژوئیه 2024 اعلام شد ، نظرات: 9 صفحه |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 560,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Instruction tuning in multimodal large language models (MLLMs) aims to smoothly integrate a backbone LLM with a pre-trained feature encoder for downstream tasks. The major challenge is how to efficiently find the synergy through cooperative learning where LLMs adapt their reasoning abilities in downstream tasks while feature encoders adjust their encoding to provide more relevant modal information. In this paper, we analyze the MLLM instruction tuning from both theoretical and empirical perspectives, where we find unbalanced learning between the two components, i.e., the feature encoder and the LLM, can cause diminishing learning gradients that slow the model convergence and often lead to sub-optimal results due to insufficient learning. Inspired by our findings, we propose a measurement to quantitatively evaluate the learning balance, based on which we further design a dynamic learning scheduler that better coordinates the learning. In addition, we introduce an auxiliary loss regularization method to promote updating of the generation distribution of MLLMs considering the learning state of each model component, which potentially prevents each component from gradient diminishing and enables a more accurate estimation of the learning balance coefficient. We conduct experiments with multiple LLM backbones and feature encoders, where our techniques are model-agnostic and can be generically integrated with various MLLM backbones. Experiment results on multiple downstream tasks and modalities in vision and audio, demonstrate the proposed method’s better efficiency and effectiveness in MLLM instruction tuning.
چکیده به فارسی (ترجمه ماشینی)
تنظیم دستورالعمل در مدل های زبان بزرگ چند حالته (MLLMS) با هدف ادغام یکپارچه سازی یک ستون فقرات LLM با یک رمزگذار ویژگی از پیش آموزش برای کارهای پایین دست است.چالش عمده این است که چگونه می توان هم افزایی را از طریق یادگیری تعاونی پیدا کرد که در آن LLM ها توانایی های استدلال خود را در کارهای پایین دست سازگار می کنند در حالی که رمزگذارهای ویژگی رمزگذاری خود را تنظیم می کنند تا اطلاعات معین بیشتری را ارائه دهند.در این مقاله ، ما تنظیم دستورالعمل MLLM را از هر دو دیدگاه نظری و تجربی مورد تجزیه و تحلیل قرار می دهیم ، جایی که یادگیری نامتعادل بین دو مؤلفه ، یعنی رمزگذار ویژگی و LLM ، می تواند باعث کاهش شیب های یادگیری شود که همگرایی مدل را کند می کند و اغلب منجر به آن می شودنتایج زیر بهینه به دلیل یادگیری ناکافی.با الهام از یافته های ما ، ما یک اندازه گیری را برای ارزیابی کمی تعادل یادگیری پیشنهاد می کنیم ، بر اساس آن ما بیشتر یک برنامه ریز یادگیری پویا را طراحی می کنیم که بهتر یادگیری را هماهنگ می کند.علاوه بر این ، ما یک روش تنظیم ضرر کمکی را برای ترویج به روزرسانی توزیع تولید MLLM با توجه به وضعیت یادگیری هر مؤلفه مدل معرفی می کنیم ، که به طور بالقوه مانع از کاهش شیب می شود و تخمین دقیق تر از ضریب تعادل یادگیری را امکان پذیر می کند.ما آزمایشاتی را با ستون فقرات LLM و رمزگذار ویژگی انجام می دهیم ، جایی که تکنیک های ما مدل-آگنوستیک هستند و می توانند به طور کلی با ستون فقرات مختلف MLLM ادغام شوند.نتایج آزمایش را در چندین کار و روشهای پایین دست در بینایی و صوتی ، نشان می دهد که کارآیی و اثربخشی بهتر روش پیشنهادی در تنظیم دستورالعمل MLLM.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.