ترجمه فارسی مقاله فارسی بهینه‌سازی ترجیحات لنگر انداخته شده و اصلاحات مقابله‌ای: پرداختن به عدم تعیین دقیق در هم‌ترازی

Name: ترجمه فارسی مقاله فارسی بهینهسازی ترجیحات لنگر انداخته شده و اصلاحات مقابلهای: پرداختن به عدم تعیین دقیق در همترازی
SKU: 65130
Availability: InStock

19,000 تومان – 720,000 تومان

نوع دانلود

پاک کردن

شناسه محصول: نامعلوم دسته: ترجمه, مقالات

عنوان مقاله به انگلیسی	Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment
عنوان مقاله به فارسی	ترجمه فارسی مقاله فارسی بهینه‌سازی ترجیحات لنگر انداخته شده و اصلاحات مقابله‌ای: پرداختن به عدم تعیین دقیق در هم‌ترازی
نویسندگان	Karel D’Oosterlinck, Winnie Xu, Chris Develder, Thomas Demeester, Amanpreet Singh, Christopher Potts, Douwe Kiela, Shikib Mehri
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	18
دسته بندی موضوعات	Machine Learning,Artificial Intelligence,Computation and Language,یادگیری ماشین , هوش مصنوعی , محاسبات و زبان ,
توضیحات	Submitted 14 September, 2024; v1 submitted 12 August, 2024; originally announced August 2024.
توضیحات به فارسی	ارسال شده در 14 سپتامبر 2024 ؛V1 ارسال شده 12 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 720,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Large Language Models (LLMs) are often aligned using contrastive alignment objectives and preference pair datasets. The interaction between model, paired data, and objective makes alignment a complicated procedure, sometimes producing subpar results. We study this and find that (i) preference data gives a better learning signal when the underlying responses are contrastive, and (ii) alignment objectives lead to better performance when they specify more control over the model during training. Based on these insights, we introduce Contrastive Learning from AI Revisions (CLAIR), a data-creation method which leads to more contrastive preference pairs, and Anchored Preference Optimization (APO), a controllable and more stable alignment objective. We align Llama-3-8B-Instruct using various comparable datasets and alignment objectives and measure MixEval-Hard scores, which correlate highly with human judgments. The CLAIR preferences lead to the strongest performance out of all datasets, and APO consistently outperforms less controllable objectives. Our best model, trained on 32K CLAIR preferences with APO, improves Llama-3-8B-Instruct by 7.65%, closing the gap with GPT4-turbo by 45%. Our code is available at https://github.com/ContextualAI/CLAIR_and_APO.

چکیده به فارسی (ترجمه ماشینی)

مدل های بزرگ زبان (LLMS) اغلب با استفاده از اهداف تراز متضاد و مجموعه داده های جفت اولویت تراز می شوند.تعامل بین مدل ، داده های زوج و هدف ، تراز را به یک روش پیچیده تبدیل می کند و گاهی اوقات نتایج Subpar را تولید می کند.ما این را مطالعه می کنیم و می دانیم که (i) داده های اولویت هنگامی که پاسخ های اساسی متضاد هستند ، سیگنال یادگیری بهتری می بخشد ، و (ب) اهداف تراز منجر به عملکرد بهتر می شوند وقتی که کنترل بیشتری بر مدل در طول آموزش نشان می دهند.بر اساس این بینش ها ، ما یادگیری متضاد از تجدید نظر در مورد AI (CLAIR) ، یک روش ایجاد داده را معرفی می کنیم که منجر به جفت ترجیح متضاد تر و بهینه سازی ترجیح لنگر (APO) می شود ، یک هدف تراز قابل کنترل و پایدار تر.ما با استفاده از مجموعه داده های مختلف قابل مقایسه و اهداف تراز ، Llama-3-8B را تراز می کنیم و نمرات مخلوط سخت را اندازه گیری می کنیم ، که بسیار با قضاوت های انسانی ارتباط دارد.ترجیحات CLAIR منجر به قوی ترین عملکرد از همه مجموعه داده ها می شود و APO به طور مداوم از اهداف قابل کنترل کمتری برخوردار است.بهترین مدل ما ، که بر روی ترجیحات 32K Clair با APO آموزش دیده است ، به صورت مجوز Llama-3-8B با 7.65 ٪ بهبود می یابد و این شکاف را با GPT4-توربو 45 ٪ بسته می کند.کد ما در https://github.com/contextualai/clair_and_apo در دسترس است.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نوع دانلود	دانلود مقاله اصل انگلیسی, سفارش ترجمه فارسی مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله فارسی بهینه‌سازی ترجیحات لنگر انداخته شده و اصلاحات مقابله‌ای: پرداختن به عدم تعیین دقیق در هم‌ترازی”

ترجمه فارسی مقاله فارسی بهینه‌سازی ترجیحات لنگر انداخته شده و اصلاحات مقابله‌ای: پرداختن به عدم تعیین دقیق در هم‌ترازی

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

سفارش ترجمه فارسی مقاله

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

ترجمه فارسی مقاله یادگیری: یک زیان اینوکس برای بهینه‌سازی آنلاین قوی بی‌توجه به داده‌های پرت

ترجمه فارسی مقاله خط لوله پردازش مولکولی متن‌باز برای تولید مولکول‌ها

ترجمه فارسی مقاله کشف اکسیدهای آنتروپی بالا با یک پتانسیل متقابل یادگیری ماشین

ترجمه فارسی مقاله ترانسفورماتور بدن: تجسم ربات برای یادگیری سیاست