| عنوان مقاله به انگلیسی | Discretizing Continuous Action Space with Unimodal Probability Distributions for On-Policy Reinforcement Learning |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله گسستهسازی فضای عمل پیوسته با توزیعهای احتمال تکوجهی برای یادگیری تقویتی درونخطی |
| نویسندگان | Yuanyang Zhu, Zhi Wang, Yuanheng Zhu, Chunlin Chen, Dongbin Zhao |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 13 |
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی , |
| توضیحات | Submitted 1 August, 2024; originally announced August 2024. , Comments: IEEE Transactions on Neural Networks and Learning Systems |
| توضیحات به فارسی | ارسال شده در 1 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: معاملات IEEE در شبکه های عصبی و سیستم های یادگیری |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 520,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
For on-policy reinforcement learning, discretizing action space for continuous control can easily express multiple modes and is straightforward to optimize. However, without considering the inherent ordering between the discrete atomic actions, the explosion in the number of discrete actions can possess undesired properties and induce a higher variance for the policy gradient estimator. In this paper, we introduce a straightforward architecture that addresses this issue by constraining the discrete policy to be unimodal using Poisson probability distributions. This unimodal architecture can better leverage the continuity in the underlying continuous action space using explicit unimodal probability distributions. We conduct extensive experiments to show that the discrete policy with the unimodal probability distribution provides significantly faster convergence and higher performance for on-policy reinforcement learning algorithms in challenging control tasks, especially in highly complex tasks such as Humanoid. We provide theoretical analysis on the variance of the policy gradient estimator, which suggests that our attentively designed unimodal discrete policy can retain a lower variance and yield a stable learning process.
چکیده به فارسی (ترجمه ماشینی)
برای یادگیری تقویت کننده در سیاست ، گسسته کردن فضای عمل برای کنترل مداوم می تواند به راحتی چندین حالت را بیان کند و برای بهینه سازی ساده است.با این حال ، بدون در نظر گرفتن ترتیب ذاتی بین اقدامات اتمی گسسته ، انفجار در تعداد اقدامات گسسته می تواند دارای خواص ناخواسته باشد و واریانس بالاتری را برای برآوردگر شیب سیاست ایجاد کند.در این مقاله ، ما یک معماری ساده را معرفی می کنیم که با محدود کردن خط مشی گسسته با استفاده از توزیع احتمال پواسون ، این مسئله را به این موضوع می پردازد.این معماری UNIMODAL می تواند با استفاده از توزیع های احتمال غیرعادی صریح ، از تداوم در فضای عمل مداوم اساسی استفاده کند.ما آزمایش های گسترده ای را انجام می دهیم تا نشان دهیم که سیاست گسسته با توزیع احتمال غیرمعمول ، همگرایی سریعتر و عملکرد بالاتر برای الگوریتم های یادگیری تقویت کننده در سیاست را در کارهای کنترل چالش برانگیز ، به ویژه در کارهای بسیار پیچیده مانند انسان دوستانه فراهم می کند.ما تجزیه و تحلیل نظری را در مورد واریانس برآوردگر شیب خط مشی ارائه می دهیم ، که نشان می دهد سیاست گسسته ای غیرعادی با دقت طراحی شده ما می تواند واریانس کمتری را حفظ کرده و یک فرایند یادگیری پایدار را به دست آورد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.