ترجمه فارسی مقاله یادگیری تقویتی اجدادی: یکپارچه سازی بهینه سازی مرتبه صفر و الگوریتم های ژنتیک برای یادگیری تقویتی

320,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Ancestral Reinforcement Learning: Unifying Zeroth-Order Optimization and Genetic Algorithms for Reinforcement Learning
عنوان مقاله به فارسی	ترجمه فارسی مقاله یادگیری تقویتی اجدادی: یکپارچه سازی بهینه سازی مرتبه صفر و الگوریتم های ژنتیک برای یادگیری تقویتی
نویسندگان	So Nakashima, Tetsuya J. Kobayashi
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	16
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Machine Learning,یادگیری ماشین ,
توضیحات	Submitted 2 September, 2024; v1 submitted 18 August, 2024; originally announced August 2024. , Comments: 16pages, 3 figures
توضیحات به فارسی	ارسال شده در 2 سپتامبر 2024 ؛V1 ارسال شده 18 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 16 صفحه ، 3 شکل
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Reinforcement Learning (RL) offers a fundamental framework for discovering optimal action strategies through interactions within unknown environments. Recent advancement have shown that the performance and applicability of RL can significantly be enhanced by exploiting a population of agents in various ways. Zeroth-Order Optimization (ZOO) leverages an agent population to estimate the gradient of the objective function, enabling robust policy refinement even in non-differentiable scenarios. As another application, Genetic Algorithms (GA) boosts the exploration of policy landscapes by mutational generation of policy diversity in an agent population and its refinement by selection. A natural question is whether we can have the best of two worlds that the agent population can have. In this work, we propose Ancestral Reinforcement Learning (ARL), which synergistically combines the robust gradient estimation of ZOO with the exploratory power of GA. The key idea in ARL is that each agent within a population infers gradient by exploiting the history of its ancestors, i.e., the ancestor population in the past, while maintaining the diversity of policies in the current population as in GA. We also theoretically reveal that the populational search in ARL implicitly induces the KL-regularization of the objective function, resulting in the enhanced exploration. Our results extend the applicability of populational algorithms for RL.

چکیده به فارسی (ترجمه ماشینی)

یادگیری تقویت (RL) یک چارچوب اساسی برای کشف استراتژی های عمل بهینه از طریق تعامل در محیط های ناشناخته ارائه می دهد.پیشرفت اخیر نشان داده است که عملکرد و کاربرد RL با بهره برداری از جمعیت مأمورین به روش های مختلف می تواند به طور قابل توجهی افزایش یابد.بهینه سازی سفارش صفر (باغ وحش) برای برآورد شیب عملکرد عینی ، از جمعیت عامل استفاده می کند و باعث می شود پالایش سیاست قوی حتی در سناریوهای غیر متمایز امکان پذیر شود.به عنوان کاربرد دیگر ، الگوریتم های ژنتیکی (GA) اکتشاف مناظر سیاست را با تولید جهش یافته تنوع سیاست در یک جمعیت عامل و پالایش آن با انتخاب افزایش می دهد.یک سوال طبیعی این است که آیا ما می توانیم از دو جهان که جمعیت عامل می تواند داشته باشد ، داشته باشیم.در این کار ، ما یادگیری تقویت اجدادی (ARL) را پیشنهاد می کنیم ، که به طور هم افزایی تخمین شیب قوی باغ وحش را با قدرت اکتشافی GA ترکیب می کند.ایده اصلی در ARL این است که هر عامل در یک جمعیت با سوءاستفاده از تاریخ اجداد خود ، یعنی جمعیت اجداد در گذشته ، ضمن حفظ تنوع سیاست ها در جمعیت فعلی ، مانند GA ، شیب خود را از بین می برد.ما همچنین از لحاظ نظری نشان می دهیم که جستجوی جمعیتی در ARL به طور ضمنی باعث تنظیم KL از عملکرد هدف می شود و در نتیجه اکتشاف پیشرفته می شود.نتایج ما کاربرد الگوریتم های جمعیتی را برای RL گسترش می دهد.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله یادگیری تقویتی اجدادی: یکپارچه سازی بهینه سازی مرتبه صفر و الگوریتم های ژنتیک برای یادگیری تقویتی”

ترجمه فارسی مقاله یادگیری تقویتی اجدادی: یکپارچه سازی بهینه سازی مرتبه صفر و الگوریتم های ژنتیک برای یادگیری تقویتی

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله طراحی الگوی سیگنال مرجع شانه برای ارتباطات و سنجش یکپارچه

مقاله انتخاب پارامتر برای تجزیه و تحلیل مکالمات با اختلال طیف اوتیسم

مقاله کاهش خاموشی از طریق RL با هدایت فیزیک

مقاله تشخیص مبتنی بر نمودار سریع برای اطلاعات رنگ ابر نقطه ای