| عنوان مقاله به انگلیسی | SEAL: Systematic Error Analysis for Value ALignment | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله مهر: تجزیه و تحلیل خطای سیستماتیک برای تراز ارزش | ||||||||
| نویسندگان | Manon Revel, Matteo Cargnelutti, Tyna Eloundou, Greg Leppert | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 28 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,Computation and Language,یادگیری ماشین , هوش مصنوعی , محاسبات و زبان , | ||||||||
| توضیحات | Submitted 16 August, 2024; originally announced August 2024. , Comments: 28 pages, 17 Figures, 8 Tables | ||||||||
| توضیحات به فارسی | ارائه شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 28 صفحه ، 17 شکل ، 8 جدول | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Reinforcement Learning from Human Feedback (RLHF) aims to align language models (LMs) with human values by training reward models (RMs) on binary preferences and using these RMs to fine-tune the base LMs. Despite its importance, the internal mechanisms of RLHF remain poorly understood. This paper introduces new metrics to evaluate the effectiveness of modeling and aligning human values, namely feature imprint, alignment resistance and alignment robustness. We categorize alignment datasets into target features (desired values) and spoiler features (undesired concepts). By regressing RM scores against these features, we quantify the extent to which RMs reward them – a metric we term feature imprint. We define alignment resistance as the proportion of the preference dataset where RMs fail to match human preferences, and we assess alignment robustness by analyzing RM responses to perturbed inputs. Our experiments, utilizing open-source components like the Anthropic/hh-rlhf preference dataset and OpenAssistant RMs, reveal significant imprints of target features and a notable sensitivity to spoiler features. We observed a 26% incidence of alignment resistance in portions of the dataset where LM-labelers disagreed with human preferences. Furthermore, we find that misalignment often arises from ambiguous entries within the alignment dataset. These findings underscore the importance of scrutinizing both RMs and alignment datasets for a deeper understanding of value alignment.
چکیده به فارسی (ترجمه ماشینی)
یادگیری تقویت از بازخورد انسانی (RLHF) با هدف هماهنگی مدل های زبان (LMS) با ارزش های انسانی با آموزش مدل های پاداش (RMS) در ترجیحات باینری و استفاده از این RMS برای تنظیم دقیق LMS پایه.علیرغم اهمیت آن ، مکانیسم های داخلی RLHF ضعیف باقی مانده است.در این مقاله معیارهای جدیدی برای ارزیابی اثربخشی مدل سازی و تراز کردن ارزشهای انسانی ، یعنی ویژگی برجسته ، مقاومت در برابر تراز و استحکام تراز ارائه شده است.ما مجموعه داده های تراز را به ویژگی های هدف (مقادیر مورد نظر) و ویژگی های اسپویلر (مفاهیم ناخواسته) طبقه بندی می کنیم.با رگرسیون نمرات RM در برابر این ویژگی ها ، ما میزان پاداش RMS به آنها را تعیین می کنیم – یک متریک که ما از ویژگی های آن استفاده می کنیم.ما مقاومت تراز را به عنوان نسبت مجموعه داده اولویت تعریف می کنیم که در آن RM ها نتوانند ترجیحات انسانی را مطابقت دهند ، و با تجزیه و تحلیل پاسخ های RM به ورودی های آشفته ، استحکام تراز را ارزیابی می کنیم.آزمایشات ما ، با استفاده از مؤلفه های منبع باز مانند مجموعه داده های ترجیح Anthropic/HH-RLHF و RMS OpenAssistant ، اثرات قابل توجهی از ویژگی های هدف و حساسیت قابل توجه نسبت به ویژگی های اسپویلر را نشان می دهد.ما 26 ٪ شیوع مقاومت در برابر تراز را در بخش هایی از مجموعه داده مشاهده کردیم که در آن برچسب های LM با ترجیحات انسانی اختلاف نظر داشتند.علاوه بر این ، ما می دانیم که سوءاستفاده اغلب از ورودی های مبهم در مجموعه داده های تراز ناشی می شود.این یافته ها بر اهمیت بررسی هر دو RMS و مجموعه داده های تراز برای درک عمیق تر از تراز ارزش تأکید می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.