ترجمه فارسی مقاله ASFT: تنظیم دقیق نظارت شده از طریق احتمال مطلق

240,000 تومان

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood
عنوان مقاله به فارسی	ترجمه فارسی مقاله ASFT: تنظیم دقیق نظارت شده از طریق احتمال مطلق
نویسندگان	Ruoyu Wang, Jiachen Sun, Shaowei Hua, Quan Fang
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	12
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی ,
توضیحات	Submitted 14 September, 2024; originally announced September 2024.
توضیحات به فارسی	ارسال شده در 14 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Direct Preference Optimization (DPO) is a method for enhancing model performance by directly optimizing for the preferences or rankings of outcomes, instead of traditional loss functions. This approach has proven effective in aligning Large Language Models (LLMs) with human preferences. Despite its widespread use across various tasks, DPO has been criticized for its sensitivity to the effectiveness of Supervised Fine-Tuning (SFT) and its limitations in enabling models to learn human-preferred responses, leading to less satisfactory performance. To address these limitations, we propose Aligned Supervised Fine-Tuning (ASFT), an effective approach that better aligns LLMs with pair-wise datasets by optimizing absolute likelihood for each response, rather than using the Bradley-Terry model, and eliminates the need for a reference model. Through theoretical gradient analysis, we demonstrate that ASFT mitigates the issue where the DPO loss function decreases the probability of generating human-dispreferred data at a faster rate than it increases the probability of producing preferred data. Additionally, we compare ASFT to DPO and its latest variants, such as the single-step approach ORPO, using the latest instruction-tuned model Llama3, which has been fine-tuned on UltraFeedback and HH-RLHF. We evaluated performance on instruction-following benchmarks like MT-Bench and traditional text generation metrics such as BLEU-4 and ROUGE-L. Extensive experiments demonstrate that ASFT is an effective alignment approach, consistently outperforming existing methods.

چکیده به فارسی (ترجمه ماشینی)

بهینه سازی اولویت مستقیم (DPO) روشی برای تقویت عملکرد مدل با بهینه سازی مستقیم برای ترجیحات یا رتبه بندی نتایج به جای توابع از دست دادن سنتی است.این رویکرد در تراز کردن مدلهای بزرگ زبان (LLM) با ترجیحات انسانی مؤثر بوده است.علیرغم استفاده گسترده در کارهای مختلف ، DPO به دلیل حساسیت خود به اثربخشی تنظیم دقیق تنظیم شده (SFT) و محدودیت های آن در فعال کردن مدلها برای یادگیری پاسخ های دوستانه انسان ، مورد انتقاد قرار گرفته است.برای پرداختن به این محدودیت ها ، ما پیشنهاد می کنیم تنظیم دقیق تنظیم شده (ASFT) ، یک رویکرد مؤثر که LLM ها را بهتر با مجموعه داده های جفت با بهینه سازی احتمال مطلق برای هر پاسخ ، به جای استفاده از مدل Bradley-Terry ، تراز می کند و نیاز را برطرف می کند.یک مدل مرجع.از طریق تجزیه و تحلیل گرادیان نظری ، ما نشان می دهیم که ASFT مسئله ای را کاهش می دهد که در آن عملکرد از دست دادن DPO احتمال تولید داده های تخریب انسان را با سرعت بیشتری نسبت به افزایش احتمال تولید داده های ترجیحی کاهش می دهد.علاوه بر این ، ما ASFT را با DPO و آخرین انواع آن ، مانند رویکرد تک مرحله ای ORPO ، با استفاده از آخرین مدل تنظیم شده LLAMA3 ، که در Ultrafeedback و HH-RLHF تنظیم شده است ، مقایسه می کنیم.ما عملکرد را در معیارهای پیروی از آموزش مانند MT-Bench و معیارهای تولید متن سنتی مانند Bleu-4 و Rouge-L ارزیابی کردیم.آزمایش های گسترده نشان می دهد که ASFT یک رویکرد تراز مؤثر است ، به طور مداوم از روشهای موجود بهتر است.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله ASFT: تنظیم دقیق نظارت شده از طریق احتمال مطلق”

ترجمه فارسی مقاله ASFT: تنظیم دقیق نظارت شده از طریق احتمال مطلق

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله بهینه سازی راندمان ارتباط نوری قابل مشاهده از طریق ادغام NOMA-CSK مبتنی بر یادگیری تقویت شده

مقاله SymTC: یک شبکه ترانسفورماتور همزیستی-سی ان ان برای نمونه تقسیم بندی MRI ستون فقرات کمری

مقاله محافظت از آثار هنری در برابر انتقال سبک عصبی با استفاده از حمله رنگی خصمانه تطابق پذیر

مقاله کالیبراسیون جبران مغناطیسی هوای مغناطیسی در سیستم های ناوبری مغناطیسی با استفاده از شبکه های زمان ثابت مایع