| عنوان مقاله به انگلیسی | ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله ASFT: تنظیم دقیق نظارت شده از طریق احتمال مطلق | ||||||||
| نویسندگان | Ruoyu Wang, Jiachen Sun, Shaowei Hua, Quan Fang | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 12 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی , | ||||||||
| توضیحات | Submitted 14 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارسال شده در 14 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Direct Preference Optimization (DPO) is a method for enhancing model performance by directly optimizing for the preferences or rankings of outcomes, instead of traditional loss functions. This approach has proven effective in aligning Large Language Models (LLMs) with human preferences. Despite its widespread use across various tasks, DPO has been criticized for its sensitivity to the effectiveness of Supervised Fine-Tuning (SFT) and its limitations in enabling models to learn human-preferred responses, leading to less satisfactory performance. To address these limitations, we propose Aligned Supervised Fine-Tuning (ASFT), an effective approach that better aligns LLMs with pair-wise datasets by optimizing absolute likelihood for each response, rather than using the Bradley-Terry model, and eliminates the need for a reference model. Through theoretical gradient analysis, we demonstrate that ASFT mitigates the issue where the DPO loss function decreases the probability of generating human-dispreferred data at a faster rate than it increases the probability of producing preferred data. Additionally, we compare ASFT to DPO and its latest variants, such as the single-step approach ORPO, using the latest instruction-tuned model Llama3, which has been fine-tuned on UltraFeedback and HH-RLHF. We evaluated performance on instruction-following benchmarks like MT-Bench and traditional text generation metrics such as BLEU-4 and ROUGE-L. Extensive experiments demonstrate that ASFT is an effective alignment approach, consistently outperforming existing methods.
چکیده به فارسی (ترجمه ماشینی)
بهینه سازی اولویت مستقیم (DPO) روشی برای تقویت عملکرد مدل با بهینه سازی مستقیم برای ترجیحات یا رتبه بندی نتایج به جای توابع از دست دادن سنتی است.این رویکرد در تراز کردن مدلهای بزرگ زبان (LLM) با ترجیحات انسانی مؤثر بوده است.علیرغم استفاده گسترده در کارهای مختلف ، DPO به دلیل حساسیت خود به اثربخشی تنظیم دقیق تنظیم شده (SFT) و محدودیت های آن در فعال کردن مدلها برای یادگیری پاسخ های دوستانه انسان ، مورد انتقاد قرار گرفته است.برای پرداختن به این محدودیت ها ، ما پیشنهاد می کنیم تنظیم دقیق تنظیم شده (ASFT) ، یک رویکرد مؤثر که LLM ها را بهتر با مجموعه داده های جفت با بهینه سازی احتمال مطلق برای هر پاسخ ، به جای استفاده از مدل Bradley-Terry ، تراز می کند و نیاز را برطرف می کند.یک مدل مرجع.از طریق تجزیه و تحلیل گرادیان نظری ، ما نشان می دهیم که ASFT مسئله ای را کاهش می دهد که در آن عملکرد از دست دادن DPO احتمال تولید داده های تخریب انسان را با سرعت بیشتری نسبت به افزایش احتمال تولید داده های ترجیحی کاهش می دهد.علاوه بر این ، ما ASFT را با DPO و آخرین انواع آن ، مانند رویکرد تک مرحله ای ORPO ، با استفاده از آخرین مدل تنظیم شده LLAMA3 ، که در Ultrafeedback و HH-RLHF تنظیم شده است ، مقایسه می کنیم.ما عملکرد را در معیارهای پیروی از آموزش مانند MT-Bench و معیارهای تولید متن سنتی مانند Bleu-4 و Rouge-L ارزیابی کردیم.آزمایش های گسترده نشان می دهد که ASFT یک رویکرد تراز مؤثر است ، به طور مداوم از روشهای موجود بهتر است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.