ترجمه فارسی مقاله Q- خانواده پرشور برای بهینه سازی سیاست

1,080,000 تومان

عنوان مقاله به انگلیسی q-exponential family for policy optimization
عنوان مقاله به فارسی ترجمه فارسی مقاله Q- خانواده پرشور برای بهینه سازی سیاست
نویسندگان Lingwei Zhu, Haseeb Shah, Han Wang, Martha White
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 27
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,یادگیری ماشین ,
توضیحات Submitted 13 August, 2024; originally announced August 2024. , Comments: 27 pages, 12 pages main text, 15 pages appendix
توضیحات به فارسی ارسال شده در 13 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 27 صفحه ، 12 صفحه متن اصلی ، 15 صفحه پیوست
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Policy optimization methods benefit from a simple and tractable policy functional, usually the Gaussian for continuous action spaces. In this paper, we consider a broader policy family that remains tractable: the $q$-exponential family. This family of policies is flexible, allowing the specification of both heavy-tailed policies ($q>1$) and light-tailed policies ($q<1$). This paper examines the interplay between $q$-exponential policies for several actor-critic algorithms conducted on both online and offline problems. We find that heavy-tailed policies are more effective in general and can consistently improve on Gaussian. In particular, we find the Student's t-distribution to be more stable than the Gaussian across settings and that a heavy-tailed $q$-Gaussian for Tsallis Advantage Weighted Actor-Critic consistently performs well in offline benchmark problems. Our code is available at \url{https://github.com/lingweizhu/qexp}.

چکیده به فارسی (ترجمه ماشینی)

روشهای بهینه سازی سیاست از یک سیاست ساده و قابل ردیابی عملکردی ، معمولاً گاوسی برای فضاهای اقدام مداوم بهره می برد.در این مقاله ، ما یک خانواده سیاست وسیع تری را در نظر می گیریم که همچنان قابل ردیابی است: خانواده $ $ -xponential.این خانواده از سیاست ها انعطاف پذیر است و امکان مشخص کردن هر دو سیاست با دم سنگین ($ q> 1 $) و سیاست های سبک ($ q <1 $) را فراهم می کند.در این مقاله به بررسی تعامل بین خط مشی های $ $ $-برای چندین الگوریتم بازیگر انتقادی که در هر دو مشکلات آنلاین و آفلاین انجام شده است ، بررسی شده است.ما می دانیم که سیاست های دارای دم سنگین به طور کلی مؤثرتر است و به طور مداوم می تواند در گاوسی بهبود یابد.به طور خاص ، ما می دانیم که توزیع T دانشجویی پایدارتر از گاوسی در سراسر تنظیمات است و یک $ q $ $-Gaussian برای Tsallis Advantage (بازیگر معتبر Tsallis) به طور مداوم در مشکلات بنچمارک آفلاین عملکرد خوبی دارد.کد ما در \ url {https://github.com/lingweizhu/qexp} در دسترس است. [sc name="papertranslation"][/sc]

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله Q- خانواده پرشور برای بهینه سازی سیاست”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا