| عنوان مقاله به انگلیسی | Fast Policy Learning for Linear Quadratic Regulator with Entropy Regularization |
| عنوان مقاله به فارسی | مقاله یادگیری سیاست سریع برای تنظیم کننده درجه دوم خطی با تنظیم آنتروپی |
| نویسندگان | Xin Guo, Xinyu Li, Renyuan Xu |
| زبان مقاله | انگلیسی |
| فرمت مقاله: | |
| تعداد صفحات | 33 |
| دسته بندی موضوعات | Optimization and Control,Machine Learning,بهینه سازی و کنترل , یادگیری ماشین , |
| توضیحات | Submitted 23 November, 2023; originally announced November 2023. , Comments: 33 pages, 3 figures |
| توضیحات به فارسی | ارسال شده 23 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد ، نظرات: 33 صفحه ، 3 شکل |
چکیده
This paper proposes and analyzes two new policy learning methods: regularized policy gradient (RPG) and iterative policy optimization (IPO), for a class of discounted linear-quadratic regulator (LQR) problems over an infinite time horizon with entropy regularization. Assuming access to the exact policy evaluation, both proposed approaches are proved to converge linearly in finding optimal policies of the regularized LQR. Moreover, the IPO method can achieve a super-linear convergence rate once it enters a local region around the optimal policy. Finally, when the optimal policy from a well-understood environment in an RL problem is appropriately transferred as the initial policy to an RL problem with an unknown environment, the IPO method is shown to enable a super-linear convergence rate if the latter is sufficiently close to the former. The performances of these proposed algorithms are supported by numerical examples.
چکیده به فارسی (ترجمه ماشینی)
این مقاله دو روش جدید یادگیری سیاست را پیشنهاد و تجزیه و تحلیل می کند: شیب خط مشی منظم (RPG) و بهینه سازی سیاست تکراری (IPO) ، برای یک کلاس از مشکلات تنظیم کننده خطی-خطی تخفیف (LQR) در یک افق زمانی نامتناهی با تنظیم آنتروپی.با فرض دسترسی به ارزیابی دقیق سیاست ، هر دو رویکرد پیشنهادی به طور خطی در یافتن سیاست های بهینه LQR منظم همگرا می شوند.علاوه بر این ، روش IPO می تواند پس از ورود به یک منطقه محلی در اطراف خط مشی بهینه ، به یک نرخ همگرایی فوق العاده خطی برسد.سرانجام ، هنگامی که خط مشی بهینه از یک محیط درک شده در یک مشکل RL به طور مناسب به عنوان خط مشی اولیه به یک مشکل RL با یک محیط ناشناخته منتقل می شود ، روش IPO نشان داده می شود که اگر دومی به اندازه کافی باشد ، نرخ همگرایی فوق العاده خطی را فعال می کند.نزدیک به سابق.عملکرد این الگوریتم های پیشنهادی توسط نمونه های عددی پشتیبانی می شود.
| توجه کنید این مقاله به زبان انگلیسی است. |
|
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|



نقد و بررسیها
هنوز بررسیای ثبت نشده است.