ترجمه فارسی مقاله یادگیری تقویتی کارآمد در ماشین های پاداش احتمالی

660,000 تومان

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Efficient Reinforcement Learning in Probabilistic Reward Machines
عنوان مقاله به فارسی	ترجمه فارسی مقاله یادگیری تقویتی کارآمد در ماشین های پاداش احتمالی
نویسندگان	Xiaofeng Lin, Xuezhou Zhang
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	33
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Machine Learning,Artificial Intelligence,Machine Learning,یادگیری ماشین , هوش مصنوعی , یادگیری ماشین ,
توضیحات	Submitted 19 August, 2024; originally announced August 2024. , Comments: 33 pages, 4 figures
توضیحات به فارسی	ارسال شده در 19 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 33 صفحه ، 4 شکل
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

In this paper, we study reinforcement learning in Markov Decision Processes with Probabilistic Reward Machines (PRMs), a form of non-Markovian reward commonly found in robotics tasks. We design an algorithm for PRMs that achieves a regret bound of $\widetilde{O}(\sqrt{HOAT} + H^2O^2A^{3/2} + H\sqrt{T})$, where $H$ is the time horizon, $O$ is the number of observations, $A$ is the number of actions, and $T$ is the number of time-steps. This result improves over the best-known bound, $\widetilde{O}(H\sqrt{OAT})$ of \citet{pmlr-v206-bourel23a} for MDPs with Deterministic Reward Machines (DRMs), a special case of PRMs. When $T \geq H^3O^3A^2$ and $OA \geq H$, our regret bound leads to a regret of $\widetilde{O}(\sqrt{HOAT})$, which matches the established lower bound of $Ω(\sqrt{HOAT})$ for MDPs with DRMs up to a logarithmic factor. To the best of our knowledge, this is the first efficient algorithm for PRMs. Additionally, we present a new simulation lemma for non-Markovian rewards, which enables reward-free exploration for any non-Markovian reward given access to an approximate planner. Complementing our theoretical findings, we show through extensive experiment evaluations that our algorithm indeed outperforms prior methods in various PRM environments.

چکیده به فارسی (ترجمه ماشینی)

در این مقاله ، ما یادگیری تقویت را در فرآیندهای تصمیم گیری مارکوف با ماشین های پاداش احتمالی (PRMS) ، نوعی از پاداش غیر مارکووی که معمولاً در کارهای روباتیک یافت می شود ، مطالعه می کنیم.ما یک الگوریتم برای PRMS طراحی می کنیم که به یک پشیمانی از $ \ wideTilde {o} (\ sqrt {hoat} + h^2o^2a^{3/2} + H \ sqrt {t}) $ ، که در آن $ h $ $ $ $ طراحی می کنیم.افق زمانی است ، $ o $ تعداد مشاهدات است ، $ a $ تعداد اقدامات است و $ t $ تعداد مراحل زمانی است.این نتیجه بیش از حد شناخته شده ، $ \ wideTilde {o} (H \ sqrt {OAT}) $ $ \ citet {PMLR-v206-Bourel23a} برای MDP ها با دستگاه های پاداش تعیین کننده (DRMS) ، مورد ویژه PRMS بهبود می یابد.بشرهنگامی که $ t \ geq h^3o^3a^2 $ و $ oa \ geq h $ ، محدودیت پشیمانی ما منجر به پشیمانی $ \ widetilde {o} (\ sqrt {hoat}) می شود ، که مطابق با محدودیت پایین است.از $ Ω (\ sqrt {hoat}) $ برای MDP های دارای DRMS تا یک عامل لگاریتمی.به بهترین دانش ما ، این اولین الگوریتم کارآمد برای PRMS است.علاوه بر این ، ما یک شبیه سازی جدید Lemma را برای پاداش های غیر مارکووی ارائه می دهیم ، که با توجه به دسترسی به یک برنامه ریز تقریبی ، اکتشاف عاری از پاداش را برای هر پاداش غیر مارکووی امکان پذیر می کند.با تکمیل یافته های نظری ما ، ما از طریق ارزیابی های گسترده آزمایش نشان می دهیم که الگوریتم ما در واقع از روشهای قبلی در محیط های مختلف PRM بهتر عمل می کند.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله یادگیری تقویتی کارآمد در ماشین های پاداش احتمالی”

ترجمه فارسی مقاله یادگیری تقویتی کارآمد در ماشین های پاداش احتمالی

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله ادغام تخریب و بازیابی ظریف از طریق سازگاری مبتنی بر نیاز

مقاله یک رویکرد کنترل بهینه تطبیقی برای به حداکثر رساندن قابلیت مشاهده عمق تک چشمی

مقاله SymTC: یک شبکه ترانسفورماتور همزیستی-سی ان ان برای نمونه تقسیم بندی MRI ستون فقرات کمری

مقاله بهینه سازی راندمان ارتباط نوری قابل مشاهده از طریق ادغام NOMA-CSK مبتنی بر یادگیری تقویت شده