,

ترجمه فارسی مقاله RVI-SAC: میانگین پاداش خارج از سیاست یادگیری تقویتی عمیق

19,000 تومان880,000 تومان

شناسه محصول: نامعلوم دسته: ,
عنوان مقاله به انگلیسی RVI-SAC: Average Reward Off-Policy Deep Reinforcement Learning
عنوان مقاله به فارسی ترجمه فارسی مقاله RVI-SAC: میانگین پاداش خارج از سیاست یادگیری تقویتی عمیق
نویسندگان Yukinari Hisaki, Isao Ono
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 22
دسته بندی موضوعات Machine Learning,یادگیری ماشین ,
توضیحات Submitted 4 August, 2024; originally announced August 2024. , Comments: Accepted at ICML 2024; Code: https://github.com/yhisaki/average-reward-drl , MSC Class: 68T05 ACM Class: I.2.6
توضیحات به فارسی ارسال شده در 4 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: در ICML 2024 پذیرفته شده است.کد: https://github.com/yhisaki/averse-reward-drl ، MSC کلاس: 68T05 کلاس ACM: I.2.6

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحه‌ای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.

قیمت: 99,000 تومان

سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحه‌ای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.

قیمت: 880,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

In this paper, we propose an off-policy deep reinforcement learning (DRL) method utilizing the average reward criterion. While most existing DRL methods employ the discounted reward criterion, this can potentially lead to a discrepancy between the training objective and performance metrics in continuing tasks, making the average reward criterion a recommended alternative. We introduce RVI-SAC, an extension of the state-of-the-art off-policy DRL method, Soft Actor-Critic (SAC), to the average reward criterion. Our proposal consists of (1) Critic updates based on RVI Q-learning, (2) Actor updates introduced by the average reward soft policy improvement theorem, and (3) automatic adjustment of Reset Cost enabling the average reward reinforcement learning to be applied to tasks with termination. We apply our method to the Gymnasium’s Mujoco tasks, a subset of locomotion tasks, and demonstrate that RVI-SAC shows competitive performance compared to existing methods.

چکیده به فارسی (ترجمه ماشینی)

در این مقاله ، ما یک روش یادگیری تقویت کننده عمیق (DRL) خارج از سیاست را با استفاده از معیار پاداش متوسط ​​پیشنهاد می کنیم.در حالی که بیشتر روشهای DRL موجود از معیار پاداش تخفیف استفاده می کنند ، این به طور بالقوه می تواند منجر به اختلاف بین هدف آموزش و معیارهای عملکرد در ادامه کار شود ، و این معیار متوسط ​​پاداش را به یک جایگزین توصیه شده تبدیل می کند.ما RVI-SAC را ، گسترش روش پیشرفته DRL خارج از سیاست ، بازیگر نرم-انتقادی (SAC) ، به میانگین معیار پاداش معرفی می کنیم.پیشنهاد ما شامل (1) به روزرسانی های منتقد مبتنی بر یادگیری RVI Q ، (2) به روزرسانی های بازیگر معرفی شده توسط میانگین قضیه بهبود سیاست نرم پاداش ، و (3) تنظیم خودکار هزینه تنظیم مجدد می تواند میانگین یادگیری تقویت پاداش را برای اعمال استفاده کندوظایف با خاتمه.ما روش خود را در وظایف Mujoco Gymnasium ، زیر مجموعه ای از کارهای حرکتی اعمال می کنیم و نشان می دهیم که RVI-SAC عملکرد رقابتی را در مقایسه با روش های موجود نشان می دهد.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله, سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله RVI-SAC: میانگین پاداش خارج از سیاست یادگیری تقویتی عمیق”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا