| عنوان مقاله به انگلیسی | Ancestral Reinforcement Learning: Unifying Zeroth-Order Optimization and Genetic Algorithms for Reinforcement Learning | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله یادگیری تقویتی اجدادی: یکپارچه سازی بهینه سازی مرتبه صفر و الگوریتم های ژنتیک برای یادگیری تقویتی | ||||||||
| نویسندگان | So Nakashima, Tetsuya J. Kobayashi | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 16 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,یادگیری ماشین , | ||||||||
| توضیحات | Submitted 2 September, 2024; v1 submitted 18 August, 2024; originally announced August 2024. , Comments: 16pages, 3 figures | ||||||||
| توضیحات به فارسی | ارسال شده در 2 سپتامبر 2024 ؛V1 ارسال شده 18 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 16 صفحه ، 3 شکل | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Reinforcement Learning (RL) offers a fundamental framework for discovering optimal action strategies through interactions within unknown environments. Recent advancement have shown that the performance and applicability of RL can significantly be enhanced by exploiting a population of agents in various ways. Zeroth-Order Optimization (ZOO) leverages an agent population to estimate the gradient of the objective function, enabling robust policy refinement even in non-differentiable scenarios. As another application, Genetic Algorithms (GA) boosts the exploration of policy landscapes by mutational generation of policy diversity in an agent population and its refinement by selection. A natural question is whether we can have the best of two worlds that the agent population can have. In this work, we propose Ancestral Reinforcement Learning (ARL), which synergistically combines the robust gradient estimation of ZOO with the exploratory power of GA. The key idea in ARL is that each agent within a population infers gradient by exploiting the history of its ancestors, i.e., the ancestor population in the past, while maintaining the diversity of policies in the current population as in GA. We also theoretically reveal that the populational search in ARL implicitly induces the KL-regularization of the objective function, resulting in the enhanced exploration. Our results extend the applicability of populational algorithms for RL.
چکیده به فارسی (ترجمه ماشینی)
یادگیری تقویت (RL) یک چارچوب اساسی برای کشف استراتژی های عمل بهینه از طریق تعامل در محیط های ناشناخته ارائه می دهد.پیشرفت اخیر نشان داده است که عملکرد و کاربرد RL با بهره برداری از جمعیت مأمورین به روش های مختلف می تواند به طور قابل توجهی افزایش یابد.بهینه سازی سفارش صفر (باغ وحش) برای برآورد شیب عملکرد عینی ، از جمعیت عامل استفاده می کند و باعث می شود پالایش سیاست قوی حتی در سناریوهای غیر متمایز امکان پذیر شود.به عنوان کاربرد دیگر ، الگوریتم های ژنتیکی (GA) اکتشاف مناظر سیاست را با تولید جهش یافته تنوع سیاست در یک جمعیت عامل و پالایش آن با انتخاب افزایش می دهد.یک سوال طبیعی این است که آیا ما می توانیم از دو جهان که جمعیت عامل می تواند داشته باشد ، داشته باشیم.در این کار ، ما یادگیری تقویت اجدادی (ARL) را پیشنهاد می کنیم ، که به طور هم افزایی تخمین شیب قوی باغ وحش را با قدرت اکتشافی GA ترکیب می کند.ایده اصلی در ARL این است که هر عامل در یک جمعیت با سوءاستفاده از تاریخ اجداد خود ، یعنی جمعیت اجداد در گذشته ، ضمن حفظ تنوع سیاست ها در جمعیت فعلی ، مانند GA ، شیب خود را از بین می برد.ما همچنین از لحاظ نظری نشان می دهیم که جستجوی جمعیتی در ARL به طور ضمنی باعث تنظیم KL از عملکرد هدف می شود و در نتیجه اکتشاف پیشرفته می شود.نتایج ما کاربرد الگوریتم های جمعیتی را برای RL گسترش می دهد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.