,

ترجمه فارسی مقاله در باب تعمیم یادگیری ترجیحی با DPO

19,000 تومان1,040,000 تومان

شناسه محصول: نامعلوم دسته: ,
عنوان مقاله به انگلیسی On the Generalization of Preference Learning with DPO
عنوان مقاله به فارسی ترجمه فارسی مقاله در باب تعمیم یادگیری ترجیحی با DPO
نویسندگان Shawn Im, Yixuan Li
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 26
دسته بندی موضوعات Machine Learning,یادگیری ماشین ,
توضیحات Submitted 12 August, 2024; v1 submitted 6 August, 2024; originally announced August 2024.
توضیحات به فارسی ارائه شده 12 اوت 2024 ؛V1 ارسال شده در 6 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 1,040,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Large language models (LLMs) have demonstrated remarkable capabilities but often struggle to align with human preferences, leading to harmful or undesirable outputs. Preference learning, which trains models to distinguish between preferred and non-preferred responses based on human feedback, has become a crucial component for ensuring that LLMs align with human values. Despite the widespread adoption in real-world systems, a thorough theoretical understanding of the generalization guarantees for these models remain lacking. This paper bridges that gap by introducing a new theoretical framework to analyze the generalization guarantees of models trained with direct preference optimization (DPO). While existing generalization theory often focuses on overparameterized models achieving near-optimal loss or models independent of the training process, our framework rigorously assesses how well models generalize after a finite number of gradient steps, reflecting real-world LLM training practices. By analyzing the reward margin associated with each sample and its trajectory throughout training, we can effectively bound the generalization error. We derive learning guarantees showing that, under specific conditions, models trained with DPO can correctly discern preferred responses on unseen data with high probability. These insights are empirically validated on contemporary LLMs, underscoring the practical relevance of our theoretical findings.

چکیده به فارسی (ترجمه ماشینی)

مدل های بزرگ زبان (LLM) توانایی های قابل توجهی را نشان داده اند اما اغلب برای تراز کردن با ترجیحات انسانی تلاش می کنند و منجر به خروجی های مضر یا نامطلوب می شوند.یادگیری اولویت ، که مدلهایی را برای تمایز بین پاسخ های ارجح و غیر قبل از بازخورد انسان آموزش می دهد ، به یک مؤلفه مهم برای اطمینان از تراز LLMS با ارزش های انسانی تبدیل شده است.با وجود اتخاذ گسترده در سیستم های دنیای واقعی ، درک کامل نظری از تضمین های تعمیم برای این مدلها وجود ندارد.این مقاله با معرفی یک چارچوب نظری جدید برای تجزیه و تحلیل ضمانت های تعمیم یافته مدلهای آموزش داده شده با بهینه سازی اولویت مستقیم (DPO) ، شکاف می دهد.در حالی که نظریه تعمیم موجود اغلب بر روی مدلهای بیش از حد پارامتری که از دست دادن تقریباً مطلوب یا مدل های مستقل از فرایند آموزش استفاده می کنند ، متمرکز است ، چارچوب ما با دقت ارزیابی می کند که چگونه مدل های خوب پس از تعداد محدودی از مراحل شیب تعمیم می یابد ، و منعکس کننده شیوه های آموزش LLM در دنیای واقعی است.با تجزیه و تحلیل حاشیه پاداش مرتبط با هر نمونه و مسیر آن در طول آموزش ، می توانیم خطای عمومی سازی را به طور مؤثر محدود کنیم.ما ضمانت های یادگیری را نشان می دهیم که نشان می دهد ، در شرایط خاص ، مدل های آموزش دیده با DPO می توانند پاسخ های ارجح را به درستی در مورد داده های غیب با احتمال زیاد تشخیص دهند.این بینش ها به صورت تجربی در LLM های معاصر تأیید می شوند و بر اهمیت عملی یافته های نظری ما تأکید می کنند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, سفارش ترجمه فارسی مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله در باب تعمیم یادگیری ترجیحی با DPO”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا