ترجمه فارسی مقاله رگرسیون چندکی برای مدل‌های پاداش توزیعی در RLHF

260,000 تومان

عنوان مقاله به انگلیسی Quantile Regression for Distributional Reward Models in RLHF
عنوان مقاله به فارسی ترجمه فارسی مقاله رگرسیون چندکی برای مدل‌های پاداش توزیعی در RLHF
نویسندگان Nicolai Dorka
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 13
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Artificial Intelligence,Computation and Language,یادگیری ماشین , هوش مصنوعی , محاسبات و زبان ,
توضیحات Submitted 16 September, 2024; originally announced September 2024.
توضیحات به فارسی ارائه شده 16 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Reinforcement learning from human feedback (RLHF) has become a key method for aligning large language models (LLMs) with human preferences through the use of reward models. However, traditional reward models typically generate point estimates, which oversimplify the diversity and complexity of human values and preferences. In this paper, we introduce Quantile Reward Models (QRMs), a novel approach to reward modeling that learns a distribution over rewards instead of a single scalar value. Our method uses quantile regression to estimate a full, potentially multimodal distribution over preferences, providing a more powerful and nuanced representation of preferences. This distributional approach can better capture the diversity of human values, addresses label noise, and accommodates conflicting preferences by modeling them as distinct modes in the distribution. Our experimental results show that QRM outperforms comparable traditional point-estimate models on RewardBench. Furthermore, we demonstrate that the additional information provided by the distributional estimates can be utilized in downstream applications, such as risk-aware reinforcement learning, resulting in LLM policies that generate fewer extremely negative responses. Our code and model are released at https://github.com/Nicolinho/QRM.

چکیده به فارسی (ترجمه ماشینی)

یادگیری تقویت از بازخورد انسانی (RLHF) به یک روش اصلی برای تراز کردن مدلهای بزرگ زبان (LLM) با ترجیحات انسانی از طریق استفاده از مدل های پاداش تبدیل شده است.با این حال ، مدل های پاداش سنتی به طور معمول برآوردهای نقطه ای ایجاد می کنند ، که تنوع و پیچیدگی ارزش ها و ترجیحات انسانی را بیش از حد نشان می دهد.در این مقاله ، ما مدل های پاداش کمی (QRMS) را معرفی می کنیم ، یک رویکرد جدید برای مدل سازی پاداش که به جای یک مقدار مقیاس واحد ، توزیع را بیش از پاداش می آموزد.روش ما از رگرسیون کمی برای برآورد توزیع کامل ، بالقوه چند حالته نسبت به ترجیحات استفاده می کند ، و نمایشی قدرتمندتر و ظریف تر از ترجیحات را ارائه می دهد.این رویکرد توزیع می تواند تنوع ارزشهای انسانی را بهتر ضبط کند ، سر و صدای برچسب را برطرف کند و با مدل سازی آنها به عنوان حالت های مجزا در توزیع ، ترجیحات متناقض را در خود جای می دهد.نتایج تجربی ما نشان می دهد که QRM از مدل های سنتی تخمین نقطه ای قابل مقایسه در پاداش Bench استفاده می کند.علاوه بر این ، ما نشان می دهیم که اطلاعات اضافی ارائه شده توسط برآوردهای توزیع می تواند در برنامه های پایین دست مانند یادگیری تقویت کننده آگاهی از ریسک استفاده شود و در نتیجه سیاست های LLM ایجاد شود که پاسخ های بسیار منفی را ایجاد می کند.کد و مدل ما در https://github.com/nicolinho/qrm منتشر می شود.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله رگرسیون چندکی برای مدل‌های پاداش توزیعی در RLHF”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا