ترجمه فارسی مقاله به سوی RLHF داده محور: معیارهای ساده برای مقایسه مجموعه داده های ترجیحی

320,000 تومان

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison
عنوان مقاله به فارسی	ترجمه فارسی مقاله به سوی RLHF داده محور: معیارهای ساده برای مقایسه مجموعه داده های ترجیحی
نویسندگان	Judy Hanwen Shen, Archit Sharma, Jun Qin
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	16
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Artificial Intelligence,Computation and Language,Machine Learning,هوش مصنوعی , محاسبات و زبان , یادگیری ماشین ,
توضیحات	Submitted 14 September, 2024; originally announced September 2024. , Comments: Working Paper
توضیحات به فارسی	ارسال شده در 14 سپتامبر 2024 ؛در ابتدا در سپتامبر 2024 اعلام شد ، نظرات: مقاله کار
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

The goal of aligning language models to human preferences requires data that reveal these preferences. Ideally, time and money can be spent carefully collecting and tailoring bespoke preference data to each downstream application. However, in practice, a select few publicly available preference datasets are often used to train reward models for reinforcement learning from human feedback (RLHF). While new preference datasets are being introduced with increasing frequency, there are currently no existing efforts to measure and compare these datasets. In this paper, we systematically study preference datasets through three perspectives: scale, label noise, and information content. We propose specific metrics for each of these perspectives and uncover different axes of comparison for a better understanding of preference datasets. Our work is a first step towards a data-centric approach to alignment by providing perspectives that aid in training efficiency and iterative data collection for RLHF.

چکیده به فارسی (ترجمه ماشینی)

هدف از تراز کردن مدل های زبان به ترجیحات انسانی ، به داده هایی نیاز دارد که این ترجیحات را نشان می دهد.در حالت ایده آل ، زمان و پول را می توان با دقت در جمع آوری و خیاطی از داده های اولویت استفاده از هر برنامه پایین دست صرف کرد.با این حال ، در عمل ، از مجموعه ای از مجموعه داده های ترجیحی در دسترس عموم استفاده می شود ، اغلب برای آموزش مدل های پاداش برای یادگیری تقویت از بازخورد انسانی (RLHF) استفاده می شود.در حالی که مجموعه داده های ترجیحی جدید با فرکانس در حال افزایش معرفی می شوند ، در حال حاضر هیچ تلاش موجود برای اندازه گیری و مقایسه این مجموعه داده ها وجود ندارد.در این مقاله ، ما به طور سیستماتیک مجموعه داده های ترجیح را از طریق سه دیدگاه مطالعه می کنیم: مقیاس ، سر و صدای برچسب و محتوای اطلاعات.ما معیارهای خاصی را برای هر یک از این دیدگاه ها پیشنهاد می کنیم و محورهای مختلف مقایسه را برای درک بهتر مجموعه داده های اولویت کشف می کنیم.کار ما اولین گام به سوی یک رویکرد داده محور برای تراز کردن با ارائه دیدگاه هایی است که به بهره وری آموزش و جمع آوری داده های تکراری برای RLHF کمک می کند.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله به سوی RLHF داده محور: معیارهای ساده برای مقایسه مجموعه داده های ترجیحی”

ترجمه فارسی مقاله به سوی RLHF داده محور: معیارهای ساده برای مقایسه مجموعه داده های ترجیحی

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله انتخاب پارامتر برای تجزیه و تحلیل مکالمات با اختلال طیف اوتیسم

مقاله کاهش خاموشی از طریق RL با هدایت فیزیک

مقاله ادغام تخریب و بازیابی ظریف از طریق سازگاری مبتنی بر نیاز

مقاله یک معماری چند منطقه ای برای بهینه سازی شبکه های توزیع مبتنی بر بازخورد در زمان واقعی