| عنوان مقاله به انگلیسی | Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله تحلیل کامل خطای الگوریتمهای یادگیری گرادیان سیاست برای مسئله کنترل میدان میانگین درجه دوم خطی اکتشافی در زمان پیوسته با نویز مشترک |
| نویسندگان | Noufel Frikha, Huyên Pham, Xuanye Song |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 67 |
| دسته بندی موضوعات | Optimization and Control,Machine Learning,بهینه سازی و کنترل , یادگیری ماشین , |
| توضیحات | Submitted 5 August, 2024; originally announced August 2024. , Comments: 67 pages |
| توضیحات به فارسی | ارسال شده در 5 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: 67 صفحه |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 2,680,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
We consider reinforcement learning (RL) methods for finding optimal policies in linear quadratic (LQ) mean field control (MFC) problems over an infinite horizon in continuous time, with common noise and entropy regularization. We study policy gradient (PG) learning and first demonstrate convergence in a model-based setting by establishing a suitable gradient domination condition.Next, our main contribution is a comprehensive error analysis, where we prove the global linear convergence and sample complexity of the PG algorithm with two-point gradient estimates in a model-free setting with unknown parameters. In this setting, the parameterized optimal policies are learned from samples of the states and population distribution.Finally, we provide numerical evidence supporting the convergence of our implemented algorithms.
چکیده به فارسی (ترجمه ماشینی)
ما روشهای یادگیری تقویت کننده (RL) را برای یافتن سیاست های بهینه در مشکلات کنترل خطی خطی (LQ) میانگین کنترل میدان (MFC) در یک افق بی نهایت در زمان مداوم ، با سر و صدای مشترک و تنظیم آنتروپی در نظر می گیریم.ما یادگیری شیب سیاست (PG) را مطالعه می کنیم و ابتدا همگرایی را در یک مدل مبتنی بر مدل با ایجاد یک شرایط سلطه شیب مناسب نشان می دهیم. در متن ، سهم اصلی ما یک تجزیه و تحلیل خطای جامع است ، جایی که ما همگرایی خطی جهانی و پیچیدگی نمونه PG را اثبات می کنیمالگوریتم با برآورد شیب دو نقطه ای در یک تنظیم عاری از مدل با پارامترهای ناشناخته.در این تنظیم ، سیاست های بهینه پارامتری از نمونه ای از ایالات و توزیع جمعیت آموخته می شود. در نهایت ، ما شواهد عددی را ارائه می دهیم که از همگرایی الگوریتم های اجرا شده ما حمایت می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.