| عنوان مقاله به انگلیسی | RVI-SAC: Average Reward Off-Policy Deep Reinforcement Learning |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله RVI-SAC: میانگین پاداش خارج از سیاست یادگیری تقویتی عمیق |
| نویسندگان | Yukinari Hisaki, Isao Ono |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 22 |
| دسته بندی موضوعات | Machine Learning,یادگیری ماشین , |
| توضیحات | Submitted 4 August, 2024; originally announced August 2024. , Comments: Accepted at ICML 2024; Code: https://github.com/yhisaki/average-reward-drl , MSC Class: 68T05 ACM Class: I.2.6 |
| توضیحات به فارسی | ارسال شده در 4 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: در ICML 2024 پذیرفته شده است.کد: https://github.com/yhisaki/averse-reward-drl ، MSC کلاس: 68T05 کلاس ACM: I.2.6 |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 880,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
In this paper, we propose an off-policy deep reinforcement learning (DRL) method utilizing the average reward criterion. While most existing DRL methods employ the discounted reward criterion, this can potentially lead to a discrepancy between the training objective and performance metrics in continuing tasks, making the average reward criterion a recommended alternative. We introduce RVI-SAC, an extension of the state-of-the-art off-policy DRL method, Soft Actor-Critic (SAC), to the average reward criterion. Our proposal consists of (1) Critic updates based on RVI Q-learning, (2) Actor updates introduced by the average reward soft policy improvement theorem, and (3) automatic adjustment of Reset Cost enabling the average reward reinforcement learning to be applied to tasks with termination. We apply our method to the Gymnasium’s Mujoco tasks, a subset of locomotion tasks, and demonstrate that RVI-SAC shows competitive performance compared to existing methods.
چکیده به فارسی (ترجمه ماشینی)
در این مقاله ، ما یک روش یادگیری تقویت کننده عمیق (DRL) خارج از سیاست را با استفاده از معیار پاداش متوسط پیشنهاد می کنیم.در حالی که بیشتر روشهای DRL موجود از معیار پاداش تخفیف استفاده می کنند ، این به طور بالقوه می تواند منجر به اختلاف بین هدف آموزش و معیارهای عملکرد در ادامه کار شود ، و این معیار متوسط پاداش را به یک جایگزین توصیه شده تبدیل می کند.ما RVI-SAC را ، گسترش روش پیشرفته DRL خارج از سیاست ، بازیگر نرم-انتقادی (SAC) ، به میانگین معیار پاداش معرفی می کنیم.پیشنهاد ما شامل (1) به روزرسانی های منتقد مبتنی بر یادگیری RVI Q ، (2) به روزرسانی های بازیگر معرفی شده توسط میانگین قضیه بهبود سیاست نرم پاداش ، و (3) تنظیم خودکار هزینه تنظیم مجدد می تواند میانگین یادگیری تقویت پاداش را برای اعمال استفاده کندوظایف با خاتمه.ما روش خود را در وظایف Mujoco Gymnasium ، زیر مجموعه ای از کارهای حرکتی اعمال می کنیم و نشان می دهیم که RVI-SAC عملکرد رقابتی را در مقایسه با روش های موجود نشان می دهد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.