ترجمه فارسی مقاله یادگیری تقویت کننده خارج از سیاست با پاداش ابعادی بالا

1,040,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Off-Policy Reinforcement Learning with High Dimensional Reward
عنوان مقاله به فارسی	ترجمه فارسی مقاله یادگیری تقویت کننده خارج از سیاست با پاداش ابعادی بالا
نویسندگان	Dong Neuck Lee, Michael R. Kosorok
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	26
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Machine Learning,Machine Learning,یادگیری ماشین , یادگیری ماشین ,
توضیحات	Submitted 14 August, 2024; originally announced August 2024. , Comments: 24 pages, 12 figures , MSC Class: 68T05; 46B09 (Primary) 46B06 (Secondary)
توضیحات به فارسی	ارسال شده در 14 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 24 صفحه ، 12 شکل ، کلاس MSC: 68T05 ؛46B09 (اولیه) 46B06 (ثانویه)
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Conventional off-policy reinforcement learning (RL) focuses on maximizing the expected return of scalar rewards. Distributional RL (DRL), in contrast, studies the distribution of returns with the distributional Bellman operator in a Euclidean space, leading to highly flexible choices for utility. This paper establishes robust theoretical foundations for DRL. We prove the contraction property of the Bellman operator even when the reward space is an infinite-dimensional separable Banach space. Furthermore, we demonstrate that the behavior of high- or infinite-dimensional returns can be effectively approximated using a lower-dimensional Euclidean space. Leveraging these theoretical insights, we propose a novel DRL algorithm that tackles problems which have been previously intractable using conventional reinforcement learning approaches.

چکیده به فارسی (ترجمه ماشینی)

یادگیری تقویت کننده خارج از سیاست (RL) بر حداکثر رساندن بازده مورد انتظار پاداش های مقیاس متمرکز است.در مقابل ، توزیع RL (DRL) ، توزیع بازده با اپراتور توزیع بلمن در یک فضای اقلیدسی را بررسی می کند و منجر به انتخاب بسیار انعطاف پذیر برای ابزار می شود.در این مقاله پایه های نظری قوی برای DRL ایجاد شده است.ما خاصیت انقباض اپراتور بلمن را حتی اگر فضای پاداش یک فضای جداگانه با نام نامتناهی باک باشد ، اثبات می کنیم.علاوه بر این ، ما نشان می دهیم که رفتار بازده با ابعاد بالا یا نامتناهی می تواند به طور موثری با استفاده از یک فضای اقلیدسی با ابعاد پایین تر تقریبی شود.با استفاده از این بینش های نظری ، ما یک الگوریتم DRL جدید را پیشنهاد می کنیم که با استفاده از رویکردهای یادگیری تقویت کننده معمولی ، مشکلات را برطرف می کند.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله یادگیری تقویت کننده خارج از سیاست با پاداش ابعادی بالا”

ترجمه فارسی مقاله یادگیری تقویت کننده خارج از سیاست با پاداش ابعادی بالا

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله SymTC: یک شبکه ترانسفورماتور همزیستی-سی ان ان برای نمونه تقسیم بندی MRI ستون فقرات کمری

مقاله تشخیص گوشه کارآمد حافظه برای سنسورهای دید پویای مبتنی بر رویداد

مقاله یک معماری چند منطقه ای برای بهینه سازی شبکه های توزیع مبتنی بر بازخورد در زمان واقعی

مقاله تشخیص مبتنی بر نمودار سریع برای اطلاعات رنگ ابر نقطه ای