ترجمه فارسی مقاله به سوی RLHF داده محور: معیارهای ساده برای مقایسه مجموعه داده های ترجیحی

320,000 تومان

عنوان مقاله به انگلیسی Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison
عنوان مقاله به فارسی ترجمه فارسی مقاله به سوی RLHF داده محور: معیارهای ساده برای مقایسه مجموعه داده های ترجیحی
نویسندگان Judy Hanwen Shen, Archit Sharma, Jun Qin
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 16
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Artificial Intelligence,Computation and Language,Machine Learning,هوش مصنوعی , محاسبات و زبان , یادگیری ماشین ,
توضیحات Submitted 14 September, 2024; originally announced September 2024. , Comments: Working Paper
توضیحات به فارسی ارسال شده در 14 سپتامبر 2024 ؛در ابتدا در سپتامبر 2024 اعلام شد ، نظرات: مقاله کار
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

The goal of aligning language models to human preferences requires data that reveal these preferences. Ideally, time and money can be spent carefully collecting and tailoring bespoke preference data to each downstream application. However, in practice, a select few publicly available preference datasets are often used to train reward models for reinforcement learning from human feedback (RLHF). While new preference datasets are being introduced with increasing frequency, there are currently no existing efforts to measure and compare these datasets. In this paper, we systematically study preference datasets through three perspectives: scale, label noise, and information content. We propose specific metrics for each of these perspectives and uncover different axes of comparison for a better understanding of preference datasets. Our work is a first step towards a data-centric approach to alignment by providing perspectives that aid in training efficiency and iterative data collection for RLHF.

چکیده به فارسی (ترجمه ماشینی)

هدف از تراز کردن مدل های زبان به ترجیحات انسانی ، به داده هایی نیاز دارد که این ترجیحات را نشان می دهد.در حالت ایده آل ، زمان و پول را می توان با دقت در جمع آوری و خیاطی از داده های اولویت استفاده از هر برنامه پایین دست صرف کرد.با این حال ، در عمل ، از مجموعه ای از مجموعه داده های ترجیحی در دسترس عموم استفاده می شود ، اغلب برای آموزش مدل های پاداش برای یادگیری تقویت از بازخورد انسانی (RLHF) استفاده می شود.در حالی که مجموعه داده های ترجیحی جدید با فرکانس در حال افزایش معرفی می شوند ، در حال حاضر هیچ تلاش موجود برای اندازه گیری و مقایسه این مجموعه داده ها وجود ندارد.در این مقاله ، ما به طور سیستماتیک مجموعه داده های ترجیح را از طریق سه دیدگاه مطالعه می کنیم: مقیاس ، سر و صدای برچسب و محتوای اطلاعات.ما معیارهای خاصی را برای هر یک از این دیدگاه ها پیشنهاد می کنیم و محورهای مختلف مقایسه را برای درک بهتر مجموعه داده های اولویت کشف می کنیم.کار ما اولین گام به سوی یک رویکرد داده محور برای تراز کردن با ارائه دیدگاه هایی است که به بهره وری آموزش و جمع آوری داده های تکراری برای RLHF کمک می کند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله به سوی RLHF داده محور: معیارهای ساده برای مقایسه مجموعه داده های ترجیحی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا