ترجمه فارسی مقاله آموزش تقویتی با افق بی نهایت کارآمد با میانگین پاداش با تقریب تابع خطی

780,000 تومان

عنوان مقاله به انگلیسی Provably Efficient Infinite-Horizon Average-Reward Reinforcement Learning with Linear Function Approximation
عنوان مقاله به فارسی ترجمه فارسی مقاله آموزش تقویتی با افق بی نهایت کارآمد با میانگین پاداش با تقریب تابع خطی
نویسندگان Woojin Chae, Dabeen Lee
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 39
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Data Structures and Algorithms,Optimization and Control,یادگیری ماشین , ساختار داده ها و الگوریتم ها , بهینه سازی و کنترل ,
توضیحات Submitted 16 September, 2024; originally announced September 2024.
توضیحات به فارسی ارائه شده 16 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

This paper proposes a computationally tractable algorithm for learning infinite-horizon average-reward linear Markov decision processes (MDPs) and linear mixture MDPs under the Bellman optimality condition. While guaranteeing computational efficiency, our algorithm for linear MDPs achieves the best-known regret upper bound of $\widetilde{\mathcal{O}}(d^{3/2}\mathrm{sp}(v^*)\sqrt{T})$ over $T$ time steps where $\mathrm{sp}(v^*)$ is the span of the optimal bias function $v^*$ and $d$ is the dimension of the feature mapping. For linear mixture MDPs, our algorithm attains a regret bound of $\widetilde{\mathcal{O}}(d\cdot\mathrm{sp}(v^*)\sqrt{T})$. The algorithm applies novel techniques to control the covering number of the value function class and the span of optimistic estimators of the value function, which is of independent interest.

چکیده به فارسی (ترجمه ماشینی)

در این مقاله یک الگوریتم محاسباتی قابل ردیابی برای یادگیری فرایندهای تصمیم گیری خطی متوسط ​​مارکوف-هوریزون به طور متوسط ​​(MDP) و MDP های مخلوط خطی تحت شرایط بهینه Bellman ارائه شده است.در حالی که بهره وری محاسباتی را تضمین می کند ، الگوریتم ما برای MDP های خطی به بیشترین پشیمانی شناخته شده از $ \ widetilde {\ mathcal {o}} (d^{3/2} \ mathrm {sp} (v^*) \ sqrt {دست می یابد.t}) $ بیش از $ t $ مراحل زمان که در آن $ \ mathrm {sp} (v^*) $ دهانه عملکرد بهینه تعصب $ v^*$ و $ d $ ابعاد نقشه برداری ویژگی است.برای MDP های مخلوط خطی ، الگوریتم ما با پشیمانی از $ \ widetilde {\ mathcal {o}} (d \ cdot \ mathrm {sp} (v^*) \ sqrt {t}) $.این الگوریتم از تکنیک های جدید برای کنترل تعداد پوشش کلاس عملکرد ارزش و دهانه برآوردگرهای خوش بینانه عملکرد ارزش استفاده می کند ، که مورد علاقه مستقل است.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله آموزش تقویتی با افق بی نهایت کارآمد با میانگین پاداش با تقریب تابع خطی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا