ترجمه فارسی مقاله مهر: تجزیه و تحلیل خطای سیستماتیک برای تراز ارزش

560,000 تومان

عنوان مقاله به انگلیسی SEAL: Systematic Error Analysis for Value ALignment
عنوان مقاله به فارسی ترجمه فارسی مقاله مهر: تجزیه و تحلیل خطای سیستماتیک برای تراز ارزش
نویسندگان Manon Revel, Matteo Cargnelutti, Tyna Eloundou, Greg Leppert
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 28
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Artificial Intelligence,Computation and Language,یادگیری ماشین , هوش مصنوعی , محاسبات و زبان ,
توضیحات Submitted 16 August, 2024; originally announced August 2024. , Comments: 28 pages, 17 Figures, 8 Tables
توضیحات به فارسی ارائه شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 28 صفحه ، 17 شکل ، 8 جدول
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Reinforcement Learning from Human Feedback (RLHF) aims to align language models (LMs) with human values by training reward models (RMs) on binary preferences and using these RMs to fine-tune the base LMs. Despite its importance, the internal mechanisms of RLHF remain poorly understood. This paper introduces new metrics to evaluate the effectiveness of modeling and aligning human values, namely feature imprint, alignment resistance and alignment robustness. We categorize alignment datasets into target features (desired values) and spoiler features (undesired concepts). By regressing RM scores against these features, we quantify the extent to which RMs reward them – a metric we term feature imprint. We define alignment resistance as the proportion of the preference dataset where RMs fail to match human preferences, and we assess alignment robustness by analyzing RM responses to perturbed inputs. Our experiments, utilizing open-source components like the Anthropic/hh-rlhf preference dataset and OpenAssistant RMs, reveal significant imprints of target features and a notable sensitivity to spoiler features. We observed a 26% incidence of alignment resistance in portions of the dataset where LM-labelers disagreed with human preferences. Furthermore, we find that misalignment often arises from ambiguous entries within the alignment dataset. These findings underscore the importance of scrutinizing both RMs and alignment datasets for a deeper understanding of value alignment.

چکیده به فارسی (ترجمه ماشینی)

یادگیری تقویت از بازخورد انسانی (RLHF) با هدف هماهنگی مدل های زبان (LMS) با ارزش های انسانی با آموزش مدل های پاداش (RMS) در ترجیحات باینری و استفاده از این RMS برای تنظیم دقیق LMS پایه.علیرغم اهمیت آن ، مکانیسم های داخلی RLHF ضعیف باقی مانده است.در این مقاله معیارهای جدیدی برای ارزیابی اثربخشی مدل سازی و تراز کردن ارزشهای انسانی ، یعنی ویژگی برجسته ، مقاومت در برابر تراز و استحکام تراز ارائه شده است.ما مجموعه داده های تراز را به ویژگی های هدف (مقادیر مورد نظر) و ویژگی های اسپویلر (مفاهیم ناخواسته) طبقه بندی می کنیم.با رگرسیون نمرات RM در برابر این ویژگی ها ، ما میزان پاداش RMS به آنها را تعیین می کنیم – یک متریک که ما از ویژگی های آن استفاده می کنیم.ما مقاومت تراز را به عنوان نسبت مجموعه داده اولویت تعریف می کنیم که در آن RM ها نتوانند ترجیحات انسانی را مطابقت دهند ، و با تجزیه و تحلیل پاسخ های RM به ورودی های آشفته ، استحکام تراز را ارزیابی می کنیم.آزمایشات ما ، با استفاده از مؤلفه های منبع باز مانند مجموعه داده های ترجیح Anthropic/HH-RLHF و RMS OpenAssistant ، اثرات قابل توجهی از ویژگی های هدف و حساسیت قابل توجه نسبت به ویژگی های اسپویلر را نشان می دهد.ما 26 ٪ شیوع مقاومت در برابر تراز را در بخش هایی از مجموعه داده مشاهده کردیم که در آن برچسب های LM با ترجیحات انسانی اختلاف نظر داشتند.علاوه بر این ، ما می دانیم که سوءاستفاده اغلب از ورودی های مبهم در مجموعه داده های تراز ناشی می شود.این یافته ها بر اهمیت بررسی هر دو RMS و مجموعه داده های تراز برای درک عمیق تر از تراز ارزش تأکید می کند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله مهر: تجزیه و تحلیل خطای سیستماتیک برای تراز ارزش”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا