| عنوان مقاله به انگلیسی | SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله SHIRE: افزایش کارایی نمونه با استفاده از شهود انسانی در یادگیری تقویتی | ||||||||
| نویسندگان | Amogh Joshi, Adarsh Kumar Kosta, Kaushik Roy | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 7 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Neural and Evolutionary Computing,Robotics,یادگیری ماشین , محاسبات عصبی و تکاملی , روباتیک , | ||||||||
| توضیحات | Submitted 16 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارائه شده 16 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
The ability of neural networks to perform robotic perception and control tasks such as depth and optical flow estimation, simultaneous localization and mapping (SLAM), and automatic control has led to their widespread adoption in recent years. Deep Reinforcement Learning has been used extensively in these settings, as it does not have the unsustainable training costs associated with supervised learning. However, DeepRL suffers from poor sample efficiency, i.e., it requires a large number of environmental interactions to converge to an acceptable solution. Modern RL algorithms such as Deep Q Learning and Soft Actor-Critic attempt to remedy this shortcoming but can not provide the explainability required in applications such as autonomous robotics. Humans intuitively understand the long-time-horizon sequential tasks common in robotics. Properly using such intuition can make RL policies more explainable while enhancing their sample efficiency. In this work, we propose SHIRE, a novel framework for encoding human intuition using Probabilistic Graphical Models (PGMs) and using it in the Deep RL training pipeline to enhance sample efficiency. Our framework achieves 25-78% sample efficiency gains across the environments we evaluate at negligible overhead cost. Additionally, by teaching RL agents the encoded elementary behavior, SHIRE enhances policy explainability. A real-world demonstration further highlights the efficacy of policies trained using our framework.
چکیده به فارسی (ترجمه ماشینی)
توانایی شبکه های عصبی در انجام ادراک رباتیک و کارهای کنترل مانند تخمین عمق و جریان نوری ، محلی سازی و نقشه برداری همزمان (SLAM) و کنترل خودکار منجر به پذیرش گسترده آنها در سالهای اخیر شده است.یادگیری تقویت عمیق در این تنظیمات به طور گسترده ای مورد استفاده قرار گرفته است ، زیرا هزینه های آموزش ناپایدار مرتبط با یادگیری تحت نظارت را ندارد.با این حال ، DEEPRL از راندمان نمونه ضعیف رنج می برد ، یعنی به تعداد زیادی از فعل و انفعالات محیطی نیاز دارد تا به یک راه حل قابل قبول تبدیل شود.الگوریتم های مدرن RL مانند یادگیری عمیق Q و تلاش بازیگر نرم و انتقادی برای اصلاح این کاستی ، اما نمی توانند توضیح مورد نیاز در برنامه هایی مانند روباتیک خودمختار را ارائه دهند.انسانها بطور شهودی وظایف پی در پی دیرینه-افق را که در روباتیک مشترک است ، می فهمند.به درستی با استفاده از چنین شهود می تواند سیاست های RL را در حالی که باعث افزایش راندمان نمونه آنها می شود ، توضیح دهد.در این کار ، ما Shire را پیشنهاد می کنیم ، یک چارچوب جدید برای رمزگذاری شهود انسان با استفاده از مدلهای گرافیکی احتمالی (PGM) و استفاده از آن در خط لوله آموزش عمیق RL برای افزایش کارآیی نمونه.چارچوب ما به 25-78 ٪ سودآور نمونه در محیط هایی که با هزینه سربار ناچیز ارزیابی می کنیم ، می رسد.علاوه بر این ، با آموزش عوامل RL رفتار ابتدایی رمزگذاری شده ، Shire توضیحات سیاست را تقویت می کند.یک تظاهرات در دنیای واقعی ، اثربخشی سیاست های آموزش داده شده با استفاده از چارچوب ما را برجسته می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.