ترجمه فارسی مقاله Q- خانواده پرشور برای بهینه سازی سیاست

1,080,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	q-exponential family for policy optimization
عنوان مقاله به فارسی	ترجمه فارسی مقاله Q- خانواده پرشور برای بهینه سازی سیاست
نویسندگان	Lingwei Zhu, Haseeb Shah, Han Wang, Martha White
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	27
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Machine Learning,یادگیری ماشین ,
توضیحات	Submitted 13 August, 2024; originally announced August 2024. , Comments: 27 pages, 12 pages main text, 15 pages appendix
توضیحات به فارسی	ارسال شده در 13 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 27 صفحه ، 12 صفحه متن اصلی ، 15 صفحه پیوست
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Policy optimization methods benefit from a simple and tractable policy functional, usually the Gaussian for continuous action spaces. In this paper, we consider a broader policy family that remains tractable: the $q$-exponential family. This family of policies is flexible, allowing the specification of both heavy-tailed policies ($q>1$) and light-tailed policies ($q<1$). This paper examines the interplay between $q$-exponential policies for several actor-critic algorithms conducted on both online and offline problems. We find that heavy-tailed policies are more effective in general and can consistently improve on Gaussian. In particular, we find the Student's t-distribution to be more stable than the Gaussian across settings and that a heavy-tailed $q$-Gaussian for Tsallis Advantage Weighted Actor-Critic consistently performs well in offline benchmark problems. Our code is available at \url{https://github.com/lingweizhu/qexp}.

چکیده به فارسی (ترجمه ماشینی)

روشهای بهینه سازی سیاست از یک سیاست ساده و قابل ردیابی عملکردی ، معمولاً گاوسی برای فضاهای اقدام مداوم بهره می برد.در این مقاله ، ما یک خانواده سیاست وسیع تری را در نظر می گیریم که همچنان قابل ردیابی است: خانواده $ $ -xponential.این خانواده از سیاست ها انعطاف پذیر است و امکان مشخص کردن هر دو سیاست با دم سنگین ($ q> 1 $) و سیاست های سبک ($ q <1 $) را فراهم می کند.در این مقاله به بررسی تعامل بین خط مشی های $ $ $-برای چندین الگوریتم بازیگر انتقادی که در هر دو مشکلات آنلاین و آفلاین انجام شده است ، بررسی شده است.ما می دانیم که سیاست های دارای دم سنگین به طور کلی مؤثرتر است و به طور مداوم می تواند در گاوسی بهبود یابد.به طور خاص ، ما می دانیم که توزیع T دانشجویی پایدارتر از گاوسی در سراسر تنظیمات است و یک $ q $ $-Gaussian برای Tsallis Advantage (بازیگر معتبر Tsallis) به طور مداوم در مشکلات بنچمارک آفلاین عملکرد خوبی دارد.کد ما در \ url {https://github.com/lingweizhu/qexp} در دسترس است. [sc name="papertranslation"][/sc]

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله Q- خانواده پرشور برای بهینه سازی سیاست”

ترجمه فارسی مقاله Q- خانواده پرشور برای بهینه سازی سیاست

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله کنترل جهت پرتو مشترک و تخصیص منابع رادیویی در شبکه های ماهواره ای چند پرتویی LEO پویا

مقاله بهینه سازی راندمان ارتباط نوری قابل مشاهده از طریق ادغام NOMA-CSK مبتنی بر یادگیری تقویت شده

مقاله یک رویکرد کنترل بهینه تطبیقی برای به حداکثر رساندن قابلیت مشاهده عمق تک چشمی

مقاله مدل‌سازی عدم قطعیت در تقسیم‌بندی تصویر اولتراسوند برای اندازه‌گیری‌های بیومتریک دقیق جنین