,

ترجمه فارسی مقاله تحلیل کامل خطای الگوریتم‌های یادگیری گرادیان سیاست برای مسئله کنترل میدان میانگین درجه دوم خطی اکتشافی در زمان پیوسته با نویز مشترک

19,000 تومان2,680,000 تومان

شناسه محصول: نامعلوم دسته: ,
عنوان مقاله به انگلیسی Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise
عنوان مقاله به فارسی ترجمه فارسی مقاله تحلیل کامل خطای الگوریتم‌های یادگیری گرادیان سیاست برای مسئله کنترل میدان میانگین درجه دوم خطی اکتشافی در زمان پیوسته با نویز مشترک
نویسندگان Noufel Frikha, Huyên Pham, Xuanye Song
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 67
دسته بندی موضوعات Optimization and Control,Machine Learning,بهینه سازی و کنترل , یادگیری ماشین ,
توضیحات Submitted 5 August, 2024; originally announced August 2024. , Comments: 67 pages
توضیحات به فارسی ارسال شده در 5 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: 67 صفحه

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 2,680,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

We consider reinforcement learning (RL) methods for finding optimal policies in linear quadratic (LQ) mean field control (MFC) problems over an infinite horizon in continuous time, with common noise and entropy regularization. We study policy gradient (PG) learning and first demonstrate convergence in a model-based setting by establishing a suitable gradient domination condition.Next, our main contribution is a comprehensive error analysis, where we prove the global linear convergence and sample complexity of the PG algorithm with two-point gradient estimates in a model-free setting with unknown parameters. In this setting, the parameterized optimal policies are learned from samples of the states and population distribution.Finally, we provide numerical evidence supporting the convergence of our implemented algorithms.

چکیده به فارسی (ترجمه ماشینی)

ما روشهای یادگیری تقویت کننده (RL) را برای یافتن سیاست های بهینه در مشکلات کنترل خطی خطی (LQ) میانگین کنترل میدان (MFC) در یک افق بی نهایت در زمان مداوم ، با سر و صدای مشترک و تنظیم آنتروپی در نظر می گیریم.ما یادگیری شیب سیاست (PG) را مطالعه می کنیم و ابتدا همگرایی را در یک مدل مبتنی بر مدل با ایجاد یک شرایط سلطه شیب مناسب نشان می دهیم. در متن ، سهم اصلی ما یک تجزیه و تحلیل خطای جامع است ، جایی که ما همگرایی خطی جهانی و پیچیدگی نمونه PG را اثبات می کنیمالگوریتم با برآورد شیب دو نقطه ای در یک تنظیم عاری از مدل با پارامترهای ناشناخته.در این تنظیم ، سیاست های بهینه پارامتری از نمونه ای از ایالات و توزیع جمعیت آموخته می شود. در نهایت ، ما شواهد عددی را ارائه می دهیم که از همگرایی الگوریتم های اجرا شده ما حمایت می کند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, سفارش ترجمه فارسی مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله تحلیل کامل خطای الگوریتم‌های یادگیری گرادیان سیاست برای مسئله کنترل میدان میانگین درجه دوم خطی اکتشافی در زمان پیوسته با نویز مشترک”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا