| عنوان مقاله به انگلیسی | Listwise Reward Estimation for Offline Preference-based Reinforcement Learning |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله تخمین پاداش Listwise برای یادگیری تقویتی مبتنی بر ترجیحات آفلاین |
| نویسندگان | Heewoong Choi, Sangwon Jung, Hongjoon Ahn, Taesup Moon |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 21 |
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی , |
| توضیحات | Submitted 7 August, 2024; originally announced August 2024. , Comments: 21 pages, ICML 2024 |
| توضیحات به فارسی | ارسال شده در 7 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 21 صفحه ، ICML 2024 |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 840,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
In Reinforcement Learning (RL), designing precise reward functions remains to be a challenge, particularly when aligning with human intent. Preference-based RL (PbRL) was introduced to address this problem by learning reward models from human feedback. However, existing PbRL methods have limitations as they often overlook the second-order preference that indicates the relative strength of preference. In this paper, we propose Listwise Reward Estimation (LiRE), a novel approach for offline PbRL that leverages second-order preference information by constructing a Ranked List of Trajectories (RLT), which can be efficiently built by using the same ternary feedback type as traditional methods. To validate the effectiveness of LiRE, we propose a new offline PbRL dataset that objectively reflects the effect of the estimated rewards. Our extensive experiments on the dataset demonstrate the superiority of LiRE, i.e., outperforming state-of-the-art baselines even with modest feedback budgets and enjoying robustness with respect to the number of feedbacks and feedback noise. Our code is available at https://github.com/chwoong/LiRE
چکیده به فارسی (ترجمه ماشینی)
در یادگیری تقویت (RL) ، طراحی توابع پاداش دقیق همچنان یک چالش است ، به ویژه هنگام هماهنگی با هدف انسان.RL مبتنی بر ترجیح (PBRL) برای رفع این مشکل با یادگیری مدل های پاداش از بازخورد انسانی معرفی شد.با این حال ، روشهای PBRL موجود محدودیت هایی دارند زیرا اغلب از اولویت مرتبه دوم غافل می شوند که نشان دهنده قدرت نسبی اولویت است.در این مقاله ، ما تخمین پاداش لیست (LIRE) را پیشنهاد می کنیم ، یک رویکرد جدید برای PBRL آفلاین که با ساختن یک لیست رتبه بندی شده از مسیرها (RLT) ، اطلاعات ترجیح مرتبه دوم را افزایش می دهد ، که می تواند با استفاده از همان نوع بازخورد سه گانه ساخته شود.روشهای سنتیبرای اعتبارسنجی اثربخشی LIRE ، ما یک مجموعه داده PBRL جدید آفلاین را پیشنهاد می کنیم که به طور عینی منعکس کننده تأثیر پاداش های تخمین زده شده است.آزمایش های گسترده ما در مورد مجموعه داده ها ، برتری لیر را نشان می دهد ، یعنی از خط مقدماتی پیشرفته حتی با بودجه بازخورد متوسط و لذت بردن از استحکام با توجه به تعداد بازخورد و سر و صدای بازخورد.کد ما در https://github.com/chwoong/lire در دسترس است
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.