“دانلود دوره لاراول ۱۰: توسعه پورتال شغلی پیشرفته (۲۰۲۴)” به سبد خرید شما اضافه شد. ادامه خرید

“دانلود دوره آموزش جامع یونیتی: بررسی ۷۰+ ابزار و قابلیت” به سبد خرید شما اضافه شد. ادامه خرید

ترجمه فارسی مقاله واریانس آبشار Q-Learning: الگوریتم ها و پیچیدگی نمونه

1,120,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity
عنوان مقاله به فارسی	ترجمه فارسی مقاله واریانس آبشار Q-Learning: الگوریتم ها و پیچیدگی نمونه
نویسندگان	Mohammad Boveiri, Peyman Mohajerin Esfahani
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	28
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Machine Learning,Machine Learning,Systems and Control,Optimization and Control,یادگیری ماشین , یادگیری ماشین , سیستم ها و کنترل , بهینه سازی و کنترل ,
توضیحات	Submitted 12 August, 2024; originally announced August 2024.
توضیحات به فارسی	ارائه شده 12 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

We study the problem of estimating the optimal Q-function of $γ$-discounted Markov decision processes (MDPs) under the synchronous setting, where independent samples for all state-action pairs are drawn from a generative model at each iteration. We introduce and analyze a novel model-free algorithm called Variance-Reduced Cascade Q-learning (VRCQ). VRCQ comprises two key building blocks: (i) the established direct variance reduction technique and (ii) our proposed variance reduction scheme, Cascade Q-learning. By leveraging these techniques, VRCQ provides superior guarantees in the $\ell_\infty$-norm compared with the existing model-free stochastic approximation-type algorithms. Specifically, we demonstrate that VRCQ is minimax optimal. Additionally, when the action set is a singleton (so that the Q-learning problem reduces to policy evaluation), it achieves non-asymptotic instance optimality while requiring the minimum number of samples theoretically possible. Our theoretical results and their practical implications are supported by numerical experiments.

چکیده به فارسی (ترجمه ماشینی)

ما مسئله تخمین عملکرد بهینه Q از فرآیندهای تصمیم گیری Markov $ $ $ $ (MDP) را در زیر تنظیم همزمان بررسی می کنیم ، جایی که نمونه های مستقل برای همه جفت های عملکرد دولتی در هر تکرار از یک مدل تولیدی گرفته می شوند.ما یک الگوریتم عاری از مدل جدید به نام واریانس Cascade Q-Learning (VRCQ) را معرفی و تجزیه و تحلیل می کنیم.VRCQ شامل دو بلوک ساختمانی کلیدی است: (1) تکنیک کاهش واریانس مستقیم و (ب) طرح کاهش واریانس پیشنهادی ما ، یادگیری Q Cascade.با استفاده از این تکنیک ها ، VRCQ در مقایسه با الگوریتم های نوع تقریبی تصادفی تصادفی بدون مدل ، ضمانت های برتر را در $ \ ell_ \ infty $-norm ارائه می دهد.به طور خاص ، ما نشان می دهیم که VRCQ حداقل بهینه است.علاوه بر این ، هنگامی که مجموعه عمل یک مجرد است (به طوری که مشکل یادگیری Q به ارزیابی سیاست کاهش می یابد) ، در حالی که نیاز به حداقل تعداد نمونه ها از نظر تئوریک ممکن است بهینه بهینه غیر عادی می رسد.نتایج نظری ما و پیامدهای عملی آنها توسط آزمایش های عددی پشتیبانی می شود.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله واریانس آبشار Q-Learning: الگوریتم ها و پیچیدگی نمونه”

ترجمه فارسی مقاله واریانس آبشار Q-Learning: الگوریتم ها و پیچیدگی نمونه

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله BreastRegNet: یک چارچوب یادگیری عمیق برای ثبت نام فاکسیترون پستان و تصاویر هیستوپاتولوژی

مقاله کنترل جهت پرتو مشترک و تخصیص منابع رادیویی در شبکه های ماهواره ای چند پرتویی LEO پویا

مقاله تشخیص گوشه کارآمد حافظه برای سنسورهای دید پویای مبتنی بر رویداد

مقاله تقسیم‌بندی خودکار سه بعدی اولتراسوند چندوجهی جفت انسان با استفاده از استراتژی‌های فیوژن و یادگیری عمیق