| عنوان مقاله به انگلیسی | Quantile Regression for Distributional Reward Models in RLHF | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله رگرسیون چندکی برای مدلهای پاداش توزیعی در RLHF | ||||||||
| نویسندگان | Nicolai Dorka | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 13 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,Computation and Language,یادگیری ماشین , هوش مصنوعی , محاسبات و زبان , | ||||||||
| توضیحات | Submitted 16 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارائه شده 16 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Reinforcement learning from human feedback (RLHF) has become a key method for aligning large language models (LLMs) with human preferences through the use of reward models. However, traditional reward models typically generate point estimates, which oversimplify the diversity and complexity of human values and preferences. In this paper, we introduce Quantile Reward Models (QRMs), a novel approach to reward modeling that learns a distribution over rewards instead of a single scalar value. Our method uses quantile regression to estimate a full, potentially multimodal distribution over preferences, providing a more powerful and nuanced representation of preferences. This distributional approach can better capture the diversity of human values, addresses label noise, and accommodates conflicting preferences by modeling them as distinct modes in the distribution. Our experimental results show that QRM outperforms comparable traditional point-estimate models on RewardBench. Furthermore, we demonstrate that the additional information provided by the distributional estimates can be utilized in downstream applications, such as risk-aware reinforcement learning, resulting in LLM policies that generate fewer extremely negative responses. Our code and model are released at https://github.com/Nicolinho/QRM.
چکیده به فارسی (ترجمه ماشینی)
یادگیری تقویت از بازخورد انسانی (RLHF) به یک روش اصلی برای تراز کردن مدلهای بزرگ زبان (LLM) با ترجیحات انسانی از طریق استفاده از مدل های پاداش تبدیل شده است.با این حال ، مدل های پاداش سنتی به طور معمول برآوردهای نقطه ای ایجاد می کنند ، که تنوع و پیچیدگی ارزش ها و ترجیحات انسانی را بیش از حد نشان می دهد.در این مقاله ، ما مدل های پاداش کمی (QRMS) را معرفی می کنیم ، یک رویکرد جدید برای مدل سازی پاداش که به جای یک مقدار مقیاس واحد ، توزیع را بیش از پاداش می آموزد.روش ما از رگرسیون کمی برای برآورد توزیع کامل ، بالقوه چند حالته نسبت به ترجیحات استفاده می کند ، و نمایشی قدرتمندتر و ظریف تر از ترجیحات را ارائه می دهد.این رویکرد توزیع می تواند تنوع ارزشهای انسانی را بهتر ضبط کند ، سر و صدای برچسب را برطرف کند و با مدل سازی آنها به عنوان حالت های مجزا در توزیع ، ترجیحات متناقض را در خود جای می دهد.نتایج تجربی ما نشان می دهد که QRM از مدل های سنتی تخمین نقطه ای قابل مقایسه در پاداش Bench استفاده می کند.علاوه بر این ، ما نشان می دهیم که اطلاعات اضافی ارائه شده توسط برآوردهای توزیع می تواند در برنامه های پایین دست مانند یادگیری تقویت کننده آگاهی از ریسک استفاده شود و در نتیجه سیاست های LLM ایجاد شود که پاسخ های بسیار منفی را ایجاد می کند.کد و مدل ما در https://github.com/nicolinho/qrm منتشر می شود.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.