ترجمه فارسی مقاله واریانس آبشار Q-Learning: الگوریتم ها و پیچیدگی نمونه

1,120,000 تومان

عنوان مقاله به انگلیسی Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity
عنوان مقاله به فارسی ترجمه فارسی مقاله واریانس آبشار Q-Learning: الگوریتم ها و پیچیدگی نمونه
نویسندگان Mohammad Boveiri, Peyman Mohajerin Esfahani
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 28
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Machine Learning,Systems and Control,Optimization and Control,یادگیری ماشین , یادگیری ماشین , سیستم ها و کنترل , بهینه سازی و کنترل ,
توضیحات Submitted 12 August, 2024; originally announced August 2024.
توضیحات به فارسی ارائه شده 12 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

We study the problem of estimating the optimal Q-function of $γ$-discounted Markov decision processes (MDPs) under the synchronous setting, where independent samples for all state-action pairs are drawn from a generative model at each iteration. We introduce and analyze a novel model-free algorithm called Variance-Reduced Cascade Q-learning (VRCQ). VRCQ comprises two key building blocks: (i) the established direct variance reduction technique and (ii) our proposed variance reduction scheme, Cascade Q-learning. By leveraging these techniques, VRCQ provides superior guarantees in the $\ell_\infty$-norm compared with the existing model-free stochastic approximation-type algorithms. Specifically, we demonstrate that VRCQ is minimax optimal. Additionally, when the action set is a singleton (so that the Q-learning problem reduces to policy evaluation), it achieves non-asymptotic instance optimality while requiring the minimum number of samples theoretically possible. Our theoretical results and their practical implications are supported by numerical experiments.

چکیده به فارسی (ترجمه ماشینی)

ما مسئله تخمین عملکرد بهینه Q از فرآیندهای تصمیم گیری Markov $ $ $ $ (MDP) را در زیر تنظیم همزمان بررسی می کنیم ، جایی که نمونه های مستقل برای همه جفت های عملکرد دولتی در هر تکرار از یک مدل تولیدی گرفته می شوند.ما یک الگوریتم عاری از مدل جدید به نام واریانس Cascade Q-Learning (VRCQ) را معرفی و تجزیه و تحلیل می کنیم.VRCQ شامل دو بلوک ساختمانی کلیدی است: (1) تکنیک کاهش واریانس مستقیم و (ب) طرح کاهش واریانس پیشنهادی ما ، یادگیری Q Cascade.با استفاده از این تکنیک ها ، VRCQ در مقایسه با الگوریتم های نوع تقریبی تصادفی تصادفی بدون مدل ، ضمانت های برتر را در $ \ ell_ \ infty $-norm ارائه می دهد.به طور خاص ، ما نشان می دهیم که VRCQ حداقل بهینه است.علاوه بر این ، هنگامی که مجموعه عمل یک مجرد است (به طوری که مشکل یادگیری Q به ارزیابی سیاست کاهش می یابد) ، در حالی که نیاز به حداقل تعداد نمونه ها از نظر تئوریک ممکن است بهینه بهینه غیر عادی می رسد.نتایج نظری ما و پیامدهای عملی آنها توسط آزمایش های عددی پشتیبانی می شود.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله واریانس آبشار Q-Learning: الگوریتم ها و پیچیدگی نمونه”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا