ترجمه فارسی مقاله آموزش تقویتی با افق بی نهایت کارآمد با میانگین پاداش با تقریب تابع خطی

780,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Provably Efficient Infinite-Horizon Average-Reward Reinforcement Learning with Linear Function Approximation
عنوان مقاله به فارسی	ترجمه فارسی مقاله آموزش تقویتی با افق بی نهایت کارآمد با میانگین پاداش با تقریب تابع خطی
نویسندگان	Woojin Chae, Dabeen Lee
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	39
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Machine Learning,Data Structures and Algorithms,Optimization and Control,یادگیری ماشین , ساختار داده ها و الگوریتم ها , بهینه سازی و کنترل ,
توضیحات	Submitted 16 September, 2024; originally announced September 2024.
توضیحات به فارسی	ارائه شده 16 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

This paper proposes a computationally tractable algorithm for learning infinite-horizon average-reward linear Markov decision processes (MDPs) and linear mixture MDPs under the Bellman optimality condition. While guaranteeing computational efficiency, our algorithm for linear MDPs achieves the best-known regret upper bound of $\widetilde{\mathcal{O}}(d^{3/2}\mathrm{sp}(v^*)\sqrt{T})$ over $T$ time steps where $\mathrm{sp}(v^*)$ is the span of the optimal bias function $v^*$ and $d$ is the dimension of the feature mapping. For linear mixture MDPs, our algorithm attains a regret bound of $\widetilde{\mathcal{O}}(d\cdot\mathrm{sp}(v^*)\sqrt{T})$. The algorithm applies novel techniques to control the covering number of the value function class and the span of optimistic estimators of the value function, which is of independent interest.

چکیده به فارسی (ترجمه ماشینی)

در این مقاله یک الگوریتم محاسباتی قابل ردیابی برای یادگیری فرایندهای تصمیم گیری خطی متوسط مارکوف-هوریزون به طور متوسط (MDP) و MDP های مخلوط خطی تحت شرایط بهینه Bellman ارائه شده است.در حالی که بهره وری محاسباتی را تضمین می کند ، الگوریتم ما برای MDP های خطی به بیشترین پشیمانی شناخته شده از $ \ widetilde {\ mathcal {o}} (d^{3/2} \ mathrm {sp} (v^*) \ sqrt {دست می یابد.t}) $ بیش از $ t $ مراحل زمان که در آن $ \ mathrm {sp} (v^*) $ دهانه عملکرد بهینه تعصب $ v^*$ و $ d $ ابعاد نقشه برداری ویژگی است.برای MDP های مخلوط خطی ، الگوریتم ما با پشیمانی از $ \ widetilde {\ mathcal {o}} (d \ cdot \ mathrm {sp} (v^*) \ sqrt {t}) $.این الگوریتم از تکنیک های جدید برای کنترل تعداد پوشش کلاس عملکرد ارزش و دهانه برآوردگرهای خوش بینانه عملکرد ارزش استفاده می کند ، که مورد علاقه مستقل است.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله آموزش تقویتی با افق بی نهایت کارآمد با میانگین پاداش با تقریب تابع خطی”

ترجمه فارسی مقاله آموزش تقویتی با افق بی نهایت کارآمد با میانگین پاداش با تقریب تابع خطی

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله تقسیم بندی CT کبد از طریق رمزگذاری مبتنی بر PVT و رمزگشایی تصفیه شده

مقاله یک رویکرد کنترل بهینه تطبیقی برای به حداکثر رساندن قابلیت مشاهده عمق تک چشمی

مقاله محافظت از آثار هنری در برابر انتقال سبک عصبی با استفاده از حمله رنگی خصمانه تطابق پذیر

مقاله تقسیم‌بندی خودکار سه بعدی اولتراسوند چندوجهی جفت انسان با استفاده از استراتژی‌های فیوژن و یادگیری عمیق