| عنوان مقاله به انگلیسی | Provably Efficient Infinite-Horizon Average-Reward Reinforcement Learning with Linear Function Approximation | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله آموزش تقویتی با افق بی نهایت کارآمد با میانگین پاداش با تقریب تابع خطی | ||||||||
| نویسندگان | Woojin Chae, Dabeen Lee | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 39 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Data Structures and Algorithms,Optimization and Control,یادگیری ماشین , ساختار داده ها و الگوریتم ها , بهینه سازی و کنترل , | ||||||||
| توضیحات | Submitted 16 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارائه شده 16 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
This paper proposes a computationally tractable algorithm for learning infinite-horizon average-reward linear Markov decision processes (MDPs) and linear mixture MDPs under the Bellman optimality condition. While guaranteeing computational efficiency, our algorithm for linear MDPs achieves the best-known regret upper bound of $\widetilde{\mathcal{O}}(d^{3/2}\mathrm{sp}(v^*)\sqrt{T})$ over $T$ time steps where $\mathrm{sp}(v^*)$ is the span of the optimal bias function $v^*$ and $d$ is the dimension of the feature mapping. For linear mixture MDPs, our algorithm attains a regret bound of $\widetilde{\mathcal{O}}(d\cdot\mathrm{sp}(v^*)\sqrt{T})$. The algorithm applies novel techniques to control the covering number of the value function class and the span of optimistic estimators of the value function, which is of independent interest.
چکیده به فارسی (ترجمه ماشینی)
در این مقاله یک الگوریتم محاسباتی قابل ردیابی برای یادگیری فرایندهای تصمیم گیری خطی متوسط مارکوف-هوریزون به طور متوسط (MDP) و MDP های مخلوط خطی تحت شرایط بهینه Bellman ارائه شده است.در حالی که بهره وری محاسباتی را تضمین می کند ، الگوریتم ما برای MDP های خطی به بیشترین پشیمانی شناخته شده از $ \ widetilde {\ mathcal {o}} (d^{3/2} \ mathrm {sp} (v^*) \ sqrt {دست می یابد.t}) $ بیش از $ t $ مراحل زمان که در آن $ \ mathrm {sp} (v^*) $ دهانه عملکرد بهینه تعصب $ v^*$ و $ d $ ابعاد نقشه برداری ویژگی است.برای MDP های مخلوط خطی ، الگوریتم ما با پشیمانی از $ \ widetilde {\ mathcal {o}} (d \ cdot \ mathrm {sp} (v^*) \ sqrt {t}) $.این الگوریتم از تکنیک های جدید برای کنترل تعداد پوشش کلاس عملکرد ارزش و دهانه برآوردگرهای خوش بینانه عملکرد ارزش استفاده می کند ، که مورد علاقه مستقل است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.