,

مقاله یادگیری سیاست سریع برای تنظیم کننده درجه دوم خطی با تنظیم آنتروپی

10,000 تومان

عنوان مقاله به انگلیسی Fast Policy Learning for Linear Quadratic Regulator with Entropy Regularization
عنوان مقاله به فارسی مقاله یادگیری سیاست سریع برای تنظیم کننده درجه دوم خطی با تنظیم آنتروپی
نویسندگان Xin Guo, Xinyu Li, Renyuan Xu
زبان مقاله انگلیسی
فرمت مقاله: PDF
تعداد صفحات 33
دسته بندی موضوعات Optimization and Control,Machine Learning,بهینه سازی و کنترل , یادگیری ماشین ,
توضیحات Submitted 23 November, 2023; originally announced November 2023. , Comments: 33 pages, 3 figures
توضیحات به فارسی ارسال شده 23 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد ، نظرات: 33 صفحه ، 3 شکل

چکیده

This paper proposes and analyzes two new policy learning methods: regularized policy gradient (RPG) and iterative policy optimization (IPO), for a class of discounted linear-quadratic regulator (LQR) problems over an infinite time horizon with entropy regularization. Assuming access to the exact policy evaluation, both proposed approaches are proved to converge linearly in finding optimal policies of the regularized LQR. Moreover, the IPO method can achieve a super-linear convergence rate once it enters a local region around the optimal policy. Finally, when the optimal policy from a well-understood environment in an RL problem is appropriately transferred as the initial policy to an RL problem with an unknown environment, the IPO method is shown to enable a super-linear convergence rate if the latter is sufficiently close to the former. The performances of these proposed algorithms are supported by numerical examples.

چکیده به فارسی (ترجمه ماشینی)

این مقاله دو روش جدید یادگیری سیاست را پیشنهاد و تجزیه و تحلیل می کند: شیب خط مشی منظم (RPG) و بهینه سازی سیاست تکراری (IPO) ، برای یک کلاس از مشکلات تنظیم کننده خطی-خطی تخفیف (LQR) در یک افق زمانی نامتناهی با تنظیم آنتروپی.با فرض دسترسی به ارزیابی دقیق سیاست ، هر دو رویکرد پیشنهادی به طور خطی در یافتن سیاست های بهینه LQR منظم همگرا می شوند.علاوه بر این ، روش IPO می تواند پس از ورود به یک منطقه محلی در اطراف خط مشی بهینه ، به یک نرخ همگرایی فوق العاده خطی برسد.سرانجام ، هنگامی که خط مشی بهینه از یک محیط درک شده در یک مشکل RL به طور مناسب به عنوان خط مشی اولیه به یک مشکل RL با یک محیط ناشناخته منتقل می شود ، روش IPO نشان داده می شود که اگر دومی به اندازه کافی باشد ، نرخ همگرایی فوق العاده خطی را فعال می کند.نزدیک به سابق.عملکرد این الگوریتم های پیشنهادی توسط نمونه های عددی پشتیبانی می شود.

توجه کنید این مقاله به زبان انگلیسی است.
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:

09395106248

توجه کنید که شرایط ترجمه به صورت زیر است:
  • قیمت هر صفحه ترجمه در حال حاضر 40 هزار تومان می باشد.
  • تحویل مقاله ترجمه شده به صورت فایل ورد می باشد.
  • زمان تحویل ترجمه مقاله در صورت داشتن تعداد صفحات عادی بین 3 تا 5 روز خواهد بود.
  • کیفیت ترجمه بسیار بالا می باشد. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
  • کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “مقاله یادگیری سیاست سریع برای تنظیم کننده درجه دوم خطی با تنظیم آنتروپی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا