| عنوان مقاله به انگلیسی | Leveraging Symmetry to Accelerate Learning of Trajectory Tracking Controllers for Free-Flying Robotic Systems | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله تقارن اهرم برای تسریع در یادگیری کنترل کننده های ردیابی مسیر برای سیستم های رباتیک پرواز آزاد | ||||||||
| نویسندگان | Jake Welde, Nishanth Rao, Pratik Kunapuli, Dinesh Jayaraman, Vijay Kumar | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 8 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Robotics,Machine Learning,Systems and Control,رباتیک , یادگیری ماشین , سیستم و کنترل , | ||||||||
| توضیحات | Submitted 17 September, 2024; originally announced September 2024. , Comments: The first three authors contributed equally to this work | ||||||||
| توضیحات به فارسی | ارسال شده 17 سپتامبر 2024 ؛در ابتدا در سپتامبر 2024 اعلام شد. ، نظرات: سه نویسنده اول به طور مساوی در این کار نقش داشتند | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Tracking controllers enable robotic systems to accurately follow planned reference trajectories. In particular, reinforcement learning (RL) has shown promise in the synthesis of controllers for systems with complex dynamics and modest online compute budgets. However, the poor sample efficiency of RL and the challenges of reward design make training slow and sometimes unstable, especially for high-dimensional systems. In this work, we leverage the inherent Lie group symmetries of robotic systems with a floating base to mitigate these challenges when learning tracking controllers. We model a general tracking problem as a Markov decision process (MDP) that captures the evolution of both the physical and reference states. Next, we prove that symmetry in the underlying dynamics and running costs leads to an MDP homomorphism, a mapping that allows a policy trained on a lower-dimensional “quotient” MDP to be lifted to an optimal tracking controller for the original system. We compare this symmetry-informed approach to an unstructured baseline, using Proximal Policy Optimization (PPO) to learn tracking controllers for three systems: the Particle (a forced point mass), the Astrobee (a fullyactuated space robot), and the Quadrotor (an underactuated system). Results show that a symmetry-aware approach both accelerates training and reduces tracking error after the same number of training steps.
چکیده به فارسی (ترجمه ماشینی)
کنترل کننده های ردیابی سیستم های روباتیک را قادر می سازند تا مسیرهای مرجع برنامه ریزی شده را به طور دقیق دنبال کنند.به طور خاص ، یادگیری تقویت کننده (RL) نوید را در سنتز کنترل کننده ها برای سیستم هایی با پویایی پیچیده و بودجه محاسبات آنلاین متوسط نشان داده است.با این حال ، بهره وری ضعیف نمونه RL و چالش های طراحی پاداش ، آموزش را کند و گاه ناپایدار می کند ، به خصوص برای سیستم های با ابعاد بالا.در این کار ، ما از تقارن گروهی Lie Lie در سیستم های روباتیک با یک پایه شناور استفاده می کنیم تا هنگام یادگیری کنترل کننده های ردیابی ، این چالش ها را کاهش دهیم.ما یک مشکل ردیابی کلی را به عنوان یک فرآیند تصمیم گیری مارکوف (MDP) الگوبرداری می کنیم که تکامل حالات فیزیکی و مرجع را ضبط می کند.در مرحله بعد ، ما ثابت می کنیم که تقارن در پویایی زیرین و هزینه های در حال اجرا منجر به همنورفیسم MDP می شود ، نقشه برداری که به یک سیاست آموزش داده شده بر روی MDP “quotient” با ابعاد پایین تر اجازه می دهد تا به یک کنترلر ردیابی بهینه برای سیستم اصلی برداشته شود.ما این رویکرد آگاهانه با تقارن را با یک پایه بدون ساختار مقایسه می کنیم ، با استفاده از بهینه سازی سیاست پروگزیمال (PPO) برای یادگیری کنترل کننده های ردیابی برای سه سیستم: ذره (یک توده نقطه اجباری) ، آستروبی (یک روبات فضایی کاملاً فعال) و Quadrotor (an anسیستم کمبود).نتایج نشان می دهد که یک رویکرد آگاه تقارن هم آموزش را تسریع می کند و هم خطای ردیابی را پس از همان تعداد مراحل آموزشی کاهش می دهد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.