| عنوان مقاله به انگلیسی | Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical Systems | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله یادگیری تقویت ایمن مبتنی بر نمونه گیری برای سیستم های دینامیکی غیرخطی | ||||||||
| نویسندگان | Wesley A. Suttle, Vipul K. Sharma, Krishna C. Kosaraju, S. Sivaranjani, Ji Liu, Vijay Gupta, Brian M. Sadler | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 20 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Optimization and Control,یادگیری ماشین , بهینه سازی و کنترل , | ||||||||
| توضیحات | Submitted 6 March, 2024; originally announced March 2024. , Comments: 20 pages, 7 figures | ||||||||
| توضیحات به فارسی | ارسال 6 مارس 2024 ؛در ابتدا مارس 2024 اعلام شد ، نظرات: 20 صفحه ، 7 شکل | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
We develop provably safe and convergent reinforcement learning (RL) algorithms for control of nonlinear dynamical systems, bridging the gap between the hard safety guarantees of control theory and the convergence guarantees of RL theory. Recent advances at the intersection of control and RL follow a two-stage, safety filter approach to enforcing hard safety constraints: model-free RL is used to learn a potentially unsafe controller, whose actions are projected onto safe sets prescribed, for example, by a control barrier function. Though safe, such approaches lose any convergence guarantees enjoyed by the underlying RL methods. In this paper, we develop a single-stage, sampling-based approach to hard constraint satisfaction that learns RL controllers enjoying classical convergence guarantees while satisfying hard safety constraints throughout training and deployment. We validate the efficacy of our approach in simulation, including safe control of a quadcopter in a challenging obstacle avoidance problem, and demonstrate that it outperforms existing benchmarks.
چکیده به فارسی (ترجمه ماشینی)
ما الگوریتم های یادگیری تقویت کننده ایمن و همگرا (RL) برای کنترل سیستم های دینامیکی غیرخطی ، ایجاد شکاف بین ضمانت های ایمنی سخت نظریه کنترل و ضمانت همگرایی نظریه RL را توسعه می دهیم.پیشرفت های اخیر در تقاطع کنترل و RL از رویکرد فیلتر دو مرحله ای برای اجرای محدودیت های ایمنی سخت پیروی می کند: RL بدون مدل برای یادگیری یک کنترلر بالقوه ناامن استفاده می شود ،یک عملکرد سد کنترل.گرچه بی خطر است ، چنین رویکردهایی هرگونه ضمانت همگرایی را که از روشهای اساسی RL برخوردار است ، از دست می دهند.در این مقاله ، ما یک رویکرد یک مرحله ای و مبتنی بر نمونه گیری از رضایت محدودیت سخت را توسعه می دهیم که کنترل کننده های RL را که از تضمین های همگرایی کلاسیک برخوردار هستند ، می آموزد ضمن اینکه محدودیت های ایمنی سخت را در طول آموزش و استقرار برآورده می کند.ما اثربخشی رویکرد خود را در شبیه سازی تأیید می کنیم ، از جمله کنترل ایمن یک کوادکوپتر در یک مشکل جلوگیری از مانع چالش برانگیز ، و نشان می دهیم که از معیارهای موجود بهتر است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.