| عنوان مقاله به انگلیسی | Efficient Reinforcement Learning in Probabilistic Reward Machines | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله یادگیری تقویتی کارآمد در ماشین های پاداش احتمالی | ||||||||
| نویسندگان | Xiaofeng Lin, Xuezhou Zhang | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 33 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,Machine Learning,یادگیری ماشین , هوش مصنوعی , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 19 August, 2024; originally announced August 2024. , Comments: 33 pages, 4 figures | ||||||||
| توضیحات به فارسی | ارسال شده در 19 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 33 صفحه ، 4 شکل | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
In this paper, we study reinforcement learning in Markov Decision Processes with Probabilistic Reward Machines (PRMs), a form of non-Markovian reward commonly found in robotics tasks. We design an algorithm for PRMs that achieves a regret bound of $\widetilde{O}(\sqrt{HOAT} + H^2O^2A^{3/2} + H\sqrt{T})$, where $H$ is the time horizon, $O$ is the number of observations, $A$ is the number of actions, and $T$ is the number of time-steps. This result improves over the best-known bound, $\widetilde{O}(H\sqrt{OAT})$ of \citet{pmlr-v206-bourel23a} for MDPs with Deterministic Reward Machines (DRMs), a special case of PRMs. When $T \geq H^3O^3A^2$ and $OA \geq H$, our regret bound leads to a regret of $\widetilde{O}(\sqrt{HOAT})$, which matches the established lower bound of $Ω(\sqrt{HOAT})$ for MDPs with DRMs up to a logarithmic factor. To the best of our knowledge, this is the first efficient algorithm for PRMs. Additionally, we present a new simulation lemma for non-Markovian rewards, which enables reward-free exploration for any non-Markovian reward given access to an approximate planner. Complementing our theoretical findings, we show through extensive experiment evaluations that our algorithm indeed outperforms prior methods in various PRM environments.
چکیده به فارسی (ترجمه ماشینی)
در این مقاله ، ما یادگیری تقویت را در فرآیندهای تصمیم گیری مارکوف با ماشین های پاداش احتمالی (PRMS) ، نوعی از پاداش غیر مارکووی که معمولاً در کارهای روباتیک یافت می شود ، مطالعه می کنیم.ما یک الگوریتم برای PRMS طراحی می کنیم که به یک پشیمانی از $ \ wideTilde {o} (\ sqrt {hoat} + h^2o^2a^{3/2} + H \ sqrt {t}) $ ، که در آن $ h $ $ $ $ طراحی می کنیم.افق زمانی است ، $ o $ تعداد مشاهدات است ، $ a $ تعداد اقدامات است و $ t $ تعداد مراحل زمانی است.این نتیجه بیش از حد شناخته شده ، $ \ wideTilde {o} (H \ sqrt {OAT}) $ $ \ citet {PMLR-v206-Bourel23a} برای MDP ها با دستگاه های پاداش تعیین کننده (DRMS) ، مورد ویژه PRMS بهبود می یابد.بشرهنگامی که $ t \ geq h^3o^3a^2 $ و $ oa \ geq h $ ، محدودیت پشیمانی ما منجر به پشیمانی $ \ widetilde {o} (\ sqrt {hoat}) می شود ، که مطابق با محدودیت پایین است.از $ Ω (\ sqrt {hoat}) $ برای MDP های دارای DRMS تا یک عامل لگاریتمی.به بهترین دانش ما ، این اولین الگوریتم کارآمد برای PRMS است.علاوه بر این ، ما یک شبیه سازی جدید Lemma را برای پاداش های غیر مارکووی ارائه می دهیم ، که با توجه به دسترسی به یک برنامه ریز تقریبی ، اکتشاف عاری از پاداش را برای هر پاداش غیر مارکووی امکان پذیر می کند.با تکمیل یافته های نظری ما ، ما از طریق ارزیابی های گسترده آزمایش نشان می دهیم که الگوریتم ما در واقع از روشهای قبلی در محیط های مختلف PRM بهتر عمل می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.