ترجمه فارسی مقاله Meta Sac-Lag: به سمت یادگیری تقویت ایمن قابل استفاده از طریق تنظیم Hyperparameter مبتنی بر متاگرافی

400,000 تومان

عنوان مقاله به انگلیسی Meta SAC-Lag: Towards Deployable Safe Reinforcement Learning via MetaGradient-based Hyperparameter Tuning
عنوان مقاله به فارسی ترجمه فارسی مقاله Meta Sac-Lag: به سمت یادگیری تقویت ایمن قابل استفاده از طریق تنظیم Hyperparameter مبتنی بر متاگرافی
نویسندگان Homayoun Honari, Amir Mehdi Soufi Enayati, Mehran Ghafarian Tamizi, Homayoun Najjaran
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 10
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Artificial Intelligence,Robotics,Systems and Control,یادگیری ماشین , هوش مصنوعی , روباتیک , سیستم و کنترل ,
توضیحات Submitted 15 August, 2024; originally announced August 2024. , Comments: Main text accepted to the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2024, 10 pages, 4 figures, 3 tables
توضیحات به فارسی ارسال شده در 15 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: متن اصلی پذیرفته شده برای کنفرانس بین المللی IEEE/RSJ در مورد روبات ها و سیستم های هوشمند (IROS) 2024 ، 10 صفحه ، 4 شکل ، 3 جدول
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Safe Reinforcement Learning (Safe RL) is one of the prevalently studied subcategories of trial-and-error-based methods with the intention to be deployed on real-world systems. In safe RL, the goal is to maximize reward performance while minimizing constraints, often achieved by setting bounds on constraint functions and utilizing the Lagrangian method. However, deploying Lagrangian-based safe RL in real-world scenarios is challenging due to the necessity of threshold fine-tuning, as imprecise adjustments may lead to suboptimal policy convergence. To mitigate this challenge, we propose a unified Lagrangian-based model-free architecture called Meta Soft Actor-Critic Lagrangian (Meta SAC-Lag). Meta SAC-Lag uses meta-gradient optimization to automatically update the safety-related hyperparameters. The proposed method is designed to address safe exploration and threshold adjustment with minimal hyperparameter tuning requirement. In our pipeline, the inner parameters are updated through the conventional formulation and the hyperparameters are adjusted using the meta-objectives which are defined based on the updated parameters. Our results show that the agent can reliably adjust the safety performance due to the relatively fast convergence rate of the safety threshold. We evaluate the performance of Meta SAC-Lag in five simulated environments against Lagrangian baselines, and the results demonstrate its capability to create synergy between parameters, yielding better or competitive results. Furthermore, we conduct a real-world experiment involving a robotic arm tasked with pouring coffee into a cup without spillage. Meta SAC-Lag is successfully trained to execute the task, while minimizing effort constraints.

چکیده به فارسی (ترجمه ماشینی)

یادگیری تقویت کننده ایمن (RL ایمن) یکی از زیر شاخه های شیوع مورد مطالعه روشهای محاکمه و خطا است که قصد دارد در سیستم های دنیای واقعی مستقر شود.در RL ایمن ، هدف این است که ضمن به حداقل رساندن محدودیت ها ، عملکرد پاداش را به حداکثر برساند ، که اغلب با تعیین مرزها بر عملکردهای محدودیت و استفاده از روش Lagrangian حاصل می شود.با این حال ، استفاده از RL ایمن مبتنی بر لاگرانژی در سناریوهای دنیای واقعی به دلیل ضرورت تنظیم دقیق آستانه چالش برانگیز است ، زیرا تنظیمات نادرست ممکن است منجر به همگرایی سیاست های زیر حد متوسط ​​شود.برای کاهش این چالش ، ما یک معماری یکپارچه بدون مدل مبتنی بر Lagrangian به نام Meta Soft بازیگر-انتقادی Lagrangian (Meta Sac-Lag) پیشنهاد می کنیم.متا ساک-لاگ از بهینه سازی متا برای به روزرسانی هایپرپارامترهای مرتبط با ایمنی استفاده می کند.روش پیشنهادی برای پرداختن به اکتشاف ایمن و تنظیم آستانه با حداقل نیاز تنظیم بیش از حد hyperparameter طراحی شده است.در خط لوله ما ، پارامترهای داخلی از طریق فرمولاسیون معمولی به روز می شوند و Hyperparameters با استفاده از متا اوباتورها که بر اساس پارامترهای به روز شده تعریف می شوند ، تنظیم می شوند.نتایج ما نشان می دهد که عامل به دلیل میزان همگرایی نسبتاً سریع آستانه ایمنی می تواند عملکرد ایمنی را با اطمینان تنظیم کند.ما عملکرد متا SAC-LAG را در پنج محیط شبیه سازی شده در برابر خطوط پایه لاگرانژی ارزیابی می کنیم ، و نتایج نشان می دهد توانایی آن در ایجاد هم افزایی بین پارامترها ، به دست آوردن نتایج بهتر یا رقابتی است.علاوه بر این ، ما یک آزمایش در دنیای واقعی را انجام می دهیم که شامل یک بازوی روباتیک است که وظیفه دارد قهوه را بدون ریختن یک فنجان بریزد.متا ساک-لاگ با موفقیت در اجرای کار آموزش داده می شود ، ضمن اینکه محدودیت های تلاش را به حداقل می رساند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله Meta Sac-Lag: به سمت یادگیری تقویت ایمن قابل استفاده از طریق تنظیم Hyperparameter مبتنی بر متاگرافی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا