ترجمه فارسی مقاله یادگیری تقویت ایمن مبتنی بر نمونه گیری برای سیستم های دینامیکی غیرخطی

400,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical Systems
عنوان مقاله به فارسی	ترجمه فارسی مقاله یادگیری تقویت ایمن مبتنی بر نمونه گیری برای سیستم های دینامیکی غیرخطی
نویسندگان	Wesley A. Suttle, Vipul K. Sharma, Krishna C. Kosaraju, S. Sivaranjani, Ji Liu, Vijay Gupta, Brian M. Sadler
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	20
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Machine Learning,Optimization and Control,یادگیری ماشین , بهینه سازی و کنترل ,
توضیحات	Submitted 6 March, 2024; originally announced March 2024. , Comments: 20 pages, 7 figures
توضیحات به فارسی	ارسال 6 مارس 2024 ؛در ابتدا مارس 2024 اعلام شد ، نظرات: 20 صفحه ، 7 شکل
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

We develop provably safe and convergent reinforcement learning (RL) algorithms for control of nonlinear dynamical systems, bridging the gap between the hard safety guarantees of control theory and the convergence guarantees of RL theory. Recent advances at the intersection of control and RL follow a two-stage, safety filter approach to enforcing hard safety constraints: model-free RL is used to learn a potentially unsafe controller, whose actions are projected onto safe sets prescribed, for example, by a control barrier function. Though safe, such approaches lose any convergence guarantees enjoyed by the underlying RL methods. In this paper, we develop a single-stage, sampling-based approach to hard constraint satisfaction that learns RL controllers enjoying classical convergence guarantees while satisfying hard safety constraints throughout training and deployment. We validate the efficacy of our approach in simulation, including safe control of a quadcopter in a challenging obstacle avoidance problem, and demonstrate that it outperforms existing benchmarks.

چکیده به فارسی (ترجمه ماشینی)

ما الگوریتم های یادگیری تقویت کننده ایمن و همگرا (RL) برای کنترل سیستم های دینامیکی غیرخطی ، ایجاد شکاف بین ضمانت های ایمنی سخت نظریه کنترل و ضمانت همگرایی نظریه RL را توسعه می دهیم.پیشرفت های اخیر در تقاطع کنترل و RL از رویکرد فیلتر دو مرحله ای برای اجرای محدودیت های ایمنی سخت پیروی می کند: RL بدون مدل برای یادگیری یک کنترلر بالقوه ناامن استفاده می شود ،یک عملکرد سد کنترل.گرچه بی خطر است ، چنین رویکردهایی هرگونه ضمانت همگرایی را که از روشهای اساسی RL برخوردار است ، از دست می دهند.در این مقاله ، ما یک رویکرد یک مرحله ای و مبتنی بر نمونه گیری از رضایت محدودیت سخت را توسعه می دهیم که کنترل کننده های RL را که از تضمین های همگرایی کلاسیک برخوردار هستند ، می آموزد ضمن اینکه محدودیت های ایمنی سخت را در طول آموزش و استقرار برآورده می کند.ما اثربخشی رویکرد خود را در شبیه سازی تأیید می کنیم ، از جمله کنترل ایمن یک کوادکوپتر در یک مشکل جلوگیری از مانع چالش برانگیز ، و نشان می دهیم که از معیارهای موجود بهتر است.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله یادگیری تقویت ایمن مبتنی بر نمونه گیری برای سیستم های دینامیکی غیرخطی”

ترجمه فارسی مقاله یادگیری تقویت ایمن مبتنی بر نمونه گیری برای سیستم های دینامیکی غیرخطی

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله بهبود تشخیص احساس گفتار مستقل از سخنران با استفاده از سازگاری توزیع مشترک پویا

مقاله SymTC: یک شبکه ترانسفورماتور همزیستی-سی ان ان برای نمونه تقسیم بندی MRI ستون فقرات کمری

مقاله یک معماری چند منطقه ای برای بهینه سازی شبکه های توزیع مبتنی بر بازخورد در زمان واقعی

مقاله ISAC با تگ های RFID پس پراکنش: طراحی پرتوهای متصل