| عنوان مقاله به انگلیسی | Off-Policy Reinforcement Learning with High Dimensional Reward | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله یادگیری تقویت کننده خارج از سیاست با پاداش ابعادی بالا | ||||||||
| نویسندگان | Dong Neuck Lee, Michael R. Kosorok | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 26 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Machine Learning,یادگیری ماشین , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 14 August, 2024; originally announced August 2024. , Comments: 24 pages, 12 figures , MSC Class: 68T05; 46B09 (Primary) 46B06 (Secondary) | ||||||||
| توضیحات به فارسی | ارسال شده در 14 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 24 صفحه ، 12 شکل ، کلاس MSC: 68T05 ؛46B09 (اولیه) 46B06 (ثانویه) | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Conventional off-policy reinforcement learning (RL) focuses on maximizing the expected return of scalar rewards. Distributional RL (DRL), in contrast, studies the distribution of returns with the distributional Bellman operator in a Euclidean space, leading to highly flexible choices for utility. This paper establishes robust theoretical foundations for DRL. We prove the contraction property of the Bellman operator even when the reward space is an infinite-dimensional separable Banach space. Furthermore, we demonstrate that the behavior of high- or infinite-dimensional returns can be effectively approximated using a lower-dimensional Euclidean space. Leveraging these theoretical insights, we propose a novel DRL algorithm that tackles problems which have been previously intractable using conventional reinforcement learning approaches.
چکیده به فارسی (ترجمه ماشینی)
یادگیری تقویت کننده خارج از سیاست (RL) بر حداکثر رساندن بازده مورد انتظار پاداش های مقیاس متمرکز است.در مقابل ، توزیع RL (DRL) ، توزیع بازده با اپراتور توزیع بلمن در یک فضای اقلیدسی را بررسی می کند و منجر به انتخاب بسیار انعطاف پذیر برای ابزار می شود.در این مقاله پایه های نظری قوی برای DRL ایجاد شده است.ما خاصیت انقباض اپراتور بلمن را حتی اگر فضای پاداش یک فضای جداگانه با نام نامتناهی باک باشد ، اثبات می کنیم.علاوه بر این ، ما نشان می دهیم که رفتار بازده با ابعاد بالا یا نامتناهی می تواند به طور موثری با استفاده از یک فضای اقلیدسی با ابعاد پایین تر تقریبی شود.با استفاده از این بینش های نظری ، ما یک الگوریتم DRL جدید را پیشنهاد می کنیم که با استفاده از رویکردهای یادگیری تقویت کننده معمولی ، مشکلات را برطرف می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.