| عنوان مقاله به انگلیسی | q-exponential family for policy optimization | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله Q- خانواده پرشور برای بهینه سازی سیاست | ||||||||
| نویسندگان | Lingwei Zhu, Haseeb Shah, Han Wang, Martha White | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 27 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,یادگیری ماشین , | ||||||||
| توضیحات | Submitted 13 August, 2024; originally announced August 2024. , Comments: 27 pages, 12 pages main text, 15 pages appendix | ||||||||
| توضیحات به فارسی | ارسال شده در 13 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 27 صفحه ، 12 صفحه متن اصلی ، 15 صفحه پیوست | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Policy optimization methods benefit from a simple and tractable policy functional, usually the Gaussian for continuous action spaces. In this paper, we consider a broader policy family that remains tractable: the $q$-exponential family. This family of policies is flexible, allowing the specification of both heavy-tailed policies ($q>1$) and light-tailed policies ($q<1$). This paper examines the interplay between $q$-exponential policies for several actor-critic algorithms conducted on both online and offline problems. We find that heavy-tailed policies are more effective in general and can consistently improve on Gaussian. In particular, we find the Student's t-distribution to be more stable than the Gaussian across settings and that a heavy-tailed $q$-Gaussian for Tsallis Advantage Weighted Actor-Critic consistently performs well in offline benchmark problems. Our code is available at \url{https://github.com/lingweizhu/qexp}.
چکیده به فارسی (ترجمه ماشینی)
روشهای بهینه سازی سیاست از یک سیاست ساده و قابل ردیابی عملکردی ، معمولاً گاوسی برای فضاهای اقدام مداوم بهره می برد.در این مقاله ، ما یک خانواده سیاست وسیع تری را در نظر می گیریم که همچنان قابل ردیابی است: خانواده $ $ -xponential.این خانواده از سیاست ها انعطاف پذیر است و امکان مشخص کردن هر دو سیاست با دم سنگین ($ q> 1 $) و سیاست های سبک ($ q <1 $) را فراهم می کند.در این مقاله به بررسی تعامل بین خط مشی های $ $ $-برای چندین الگوریتم بازیگر انتقادی که در هر دو مشکلات آنلاین و آفلاین انجام شده است ، بررسی شده است.ما می دانیم که سیاست های دارای دم سنگین به طور کلی مؤثرتر است و به طور مداوم می تواند در گاوسی بهبود یابد.به طور خاص ، ما می دانیم که توزیع T دانشجویی پایدارتر از گاوسی در سراسر تنظیمات است و یک $ q $ $-Gaussian برای Tsallis Advantage (بازیگر معتبر Tsallis) به طور مداوم در مشکلات بنچمارک آفلاین عملکرد خوبی دارد.کد ما در \ url {https://github.com/lingweizhu/qexp} در دسترس است. [sc name="papertranslation"][/sc]


نقد و بررسیها
هنوز بررسیای ثبت نشده است.