عنوان مقاله به انگلیسی | Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity | ||||||||
عنوان مقاله به فارسی | ترجمه فارسی مقاله واریانس آبشار Q-Learning: الگوریتم ها و پیچیدگی نمونه | ||||||||
نویسندگان | Mohammad Boveiri, Peyman Mohajerin Esfahani | ||||||||
فرمت مقاله انگلیسی | |||||||||
زبان مقاله تحویلی | ترجمه فارسی | ||||||||
فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
تعداد صفحات | 28 | ||||||||
لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
دسته بندی موضوعات | Machine Learning,Machine Learning,Systems and Control,Optimization and Control,یادگیری ماشین , یادگیری ماشین , سیستم ها و کنترل , بهینه سازی و کنترل , | ||||||||
توضیحات | Submitted 12 August, 2024; originally announced August 2024. | ||||||||
توضیحات به فارسی | ارائه شده 12 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
We study the problem of estimating the optimal Q-function of $γ$-discounted Markov decision processes (MDPs) under the synchronous setting, where independent samples for all state-action pairs are drawn from a generative model at each iteration. We introduce and analyze a novel model-free algorithm called Variance-Reduced Cascade Q-learning (VRCQ). VRCQ comprises two key building blocks: (i) the established direct variance reduction technique and (ii) our proposed variance reduction scheme, Cascade Q-learning. By leveraging these techniques, VRCQ provides superior guarantees in the $\ell_\infty$-norm compared with the existing model-free stochastic approximation-type algorithms. Specifically, we demonstrate that VRCQ is minimax optimal. Additionally, when the action set is a singleton (so that the Q-learning problem reduces to policy evaluation), it achieves non-asymptotic instance optimality while requiring the minimum number of samples theoretically possible. Our theoretical results and their practical implications are supported by numerical experiments.
چکیده به فارسی (ترجمه ماشینی)
ما مسئله تخمین عملکرد بهینه Q از فرآیندهای تصمیم گیری Markov $ $ $ $ (MDP) را در زیر تنظیم همزمان بررسی می کنیم ، جایی که نمونه های مستقل برای همه جفت های عملکرد دولتی در هر تکرار از یک مدل تولیدی گرفته می شوند.ما یک الگوریتم عاری از مدل جدید به نام واریانس Cascade Q-Learning (VRCQ) را معرفی و تجزیه و تحلیل می کنیم.VRCQ شامل دو بلوک ساختمانی کلیدی است: (1) تکنیک کاهش واریانس مستقیم و (ب) طرح کاهش واریانس پیشنهادی ما ، یادگیری Q Cascade.با استفاده از این تکنیک ها ، VRCQ در مقایسه با الگوریتم های نوع تقریبی تصادفی تصادفی بدون مدل ، ضمانت های برتر را در $ \ ell_ \ infty $-norm ارائه می دهد.به طور خاص ، ما نشان می دهیم که VRCQ حداقل بهینه است.علاوه بر این ، هنگامی که مجموعه عمل یک مجرد است (به طوری که مشکل یادگیری Q به ارزیابی سیاست کاهش می یابد) ، در حالی که نیاز به حداقل تعداد نمونه ها از نظر تئوریک ممکن است بهینه بهینه غیر عادی می رسد.نتایج نظری ما و پیامدهای عملی آنها توسط آزمایش های عددی پشتیبانی می شود.
فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
نقد و بررسیها
هنوز بررسیای ثبت نشده است.