| عنوان مقاله به انگلیسی | MoFO: Momentum-Filtered Optimizer for Mitigating Forgetting in LLM Fine-Tuning |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله MoFO: بهینهساز فیلتر شده با مومنتوم برای کاهش فراموشی در تنظیم دقیق LLM |
| نویسندگان | Yupeng Chen, Senmiao Wang, Zhihang Lin, Zeyu Qin, Yushun Zhang, Tian Ding, Ruoyu Sun |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 21 |
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی , |
| توضیحات | Submitted 31 July, 2024; v1 submitted 30 July, 2024; originally announced July 2024. |
| توضیحات به فارسی | ارسال 31 ژوئیه 2024 ؛V1 ارسال شده 30 ژوئیه 2024 ؛در ابتدا ژوئیه 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 840,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Recently, large language models (LLMs) have demonstrated remarkable capabilities in a wide range of tasks. Typically, an LLM is pre-trained on large corpora and subsequently fine-tuned on task-specific datasets. However, during fine-tuning, LLMs may forget the knowledge acquired in the pre-training stage, leading to a decline in general capabilities. To address this issue, we propose a new fine-tuning algorithm termed Momentum-Filtered Optimizer (MoFO). The key idea of MoFO is to iteratively select and update the model parameters with the largest momentum magnitudes. Compared to full-parameter training, MoFO achieves similar fine-tuning performance while keeping parameters closer to the pre-trained model, thereby mitigating knowledge forgetting. Unlike most existing methods for forgetting mitigation, MoFO combines the following two advantages. First, MoFO does not require access to pre-training data. This makes MoFO particularly suitable for fine-tuning scenarios where pre-training data is unavailable, such as fine-tuning checkpoint-only open-source LLMs. Second, MoFO does not alter the original loss function. This could avoid impairing the model performance on the fine-tuning tasks. We validate MoFO through rigorous convergence analysis and extensive experiments, demonstrating its superiority over existing methods in mitigating forgetting and enhancing fine-tuning performance.
چکیده به فارسی (ترجمه ماشینی)
اخیراً ، مدل های بزرگ زبان (LLMS) در طیف گسترده ای از کارها قابلیت های قابل توجهی را نشان داده اند.به طور معمول ، یک LLM در شرکت های بزرگ از قبل آموزش داده می شود و متعاقباً روی مجموعه داده های خاص کار تنظیم می شود.با این حال ، در هنگام تنظیم دقیق ، LLMS ممکن است دانش به دست آمده در مرحله قبل از آموزش را فراموش کند و منجر به کاهش قابلیت های عمومی شود.برای پرداختن به این مسئله ، ما یک الگوریتم تنظیم خوب جدید با عنوان Optimizer فیلتر شده Momentum (MOFO) را پیشنهاد می کنیم.ایده اصلی MOFO این است که به طور تکراری پارامترهای مدل را با بزرگترین بزرگی حرکت انتخاب و به روز کنید.در مقایسه با آموزش کامل پارامتر ، MOFO در حالی که پارامترها را به مدل از پیش آموزش داده شده نزدیکتر نگه می دارد ، عملکرد تنظیم دقیق مشابهی را به دست می آورد و بدین ترتیب دانش را فراموش می کند.بر خلاف اکثر روشهای موجود برای فراموش کردن کاهش ، MOFO دو مزیت زیر را ترکیب می کند.اول ، MOFO نیازی به دسترسی به داده های قبل از آموزش ندارد.این امر باعث می شود MOFO به ویژه برای سناریوهای تنظیم دقیق که در آن داده های قبل از آموزش در دسترس نیست ، مانند LLM های منبع باز فقط تنظیم شده ، در دسترس نیست.دوم ، MOFO عملکرد از دست دادن اصلی را تغییر نمی دهد.این می تواند از اختلال در عملکرد مدل در کارهای تنظیم دقیق جلوگیری کند.ما MOFO را از طریق تجزیه و تحلیل همگرایی دقیق و آزمایش های گسترده تأیید می کنیم ، و برتری آن را نسبت به روشهای موجود در کاهش فراموشی و تقویت عملکرد تنظیم دقیق نشان می دهیم.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.