| عنوان مقاله به انگلیسی | Offline Model-Based Reinforcement Learning with Anti-Exploration | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله آموزش تقویتی مبتنی بر مدل آفلاین با ضد اکتشاف | ||||||||
| نویسندگان | Padmanaba Srinivasan, William Knottenbelt | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 8 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی , | ||||||||
| توضیحات | Submitted 20 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | 20 اوت 2024 ارسال شد.در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Model-based reinforcement learning (MBRL) algorithms learn a dynamics model from collected data and apply it to generate synthetic trajectories to enable faster learning. This is an especially promising paradigm in offline reinforcement learning (RL) where data may be limited in quantity, in addition to being deficient in coverage and quality. Practical approaches to offline MBRL usually rely on ensembles of dynamics models to prevent exploitation of any individual model and to extract uncertainty estimates that penalize values in states far from the dataset support. Uncertainty estimates from ensembles can vary greatly in scale, making it challenging to generalize hyperparameters well across even similar tasks. In this paper, we present Morse Model-based offline RL (MoMo), which extends the anti-exploration paradigm found in offline model-free RL to the model-based space. We develop model-free and model-based variants of MoMo and show how the model-free version can be extended to detect and deal with out-of-distribution (OOD) states using explicit uncertainty estimation without the need for large ensembles. MoMo performs offline MBRL using an anti-exploration bonus to counteract value overestimation in combination with a policy constraint, as well as a truncation function to terminate synthetic rollouts that are excessively OOD. Experimentally, we find that both model-free and model-based MoMo perform well, and the latter outperforms prior model-based and model-free baselines on the majority of D4RL datasets tested.
چکیده به فارسی (ترجمه ماشینی)
الگوریتم های یادگیری تقویت مبتنی بر مدل (MBRL) یک مدل دینامیک را از داده های جمع آوری شده یاد می گیرند و از آن برای تولید مسیرهای مصنوعی استفاده می کنند تا یادگیری سریعتر را فعال کنند.این یک الگوی مخصوصاً امیدوار کننده در یادگیری تقویت کننده آفلاین (RL) است که علاوه بر کمبود در پوشش و کیفیت ، داده ها ممکن است از نظر کمیت محدود باشد.رویکردهای عملی به MBRL آفلاین معمولاً برای جلوگیری از بهره برداری از هر مدل فردی و استخراج تخمین های عدم اطمینان که مقادیر را در حالت های دور از پشتیبانی مجموعه داده مجازات می کند ، به مجموعه های مدل های دینامیک متکی هستند.برآورد عدم اطمینان از مجموعه ها می تواند در مقیاس بسیار متفاوت باشد ، و باعث می شود تعمیم HyperParameters به خوبی در کارهای مشابه به چالش کشیده شود.در این مقاله ، ما RL آفلاین مبتنی بر مدل مورس (MOMO) را ارائه می دهیم ، که الگوی ضد اکتشافی موجود در RL بدون مدل آفلاین را به فضای مبتنی بر مدل گسترش می دهد.ما انواع بدون مدل و مدل مبتنی بر MOMO را توسعه می دهیم و نشان می دهیم که چگونه می توان نسخه بدون مدل را برای شناسایی و برخورد با حالت های خارج از توزیع (OOD) با استفاده از برآورد عدم اطمینان صریح و بدون نیاز به گروه های بزرگ گسترش داد.MOMO MBRL آفلاین را با استفاده از یک پاداش ضد اکتشافی برای مقابله با ارزیابی بیش از حد در ترکیب با یک محدودیت سیاست ، و همچنین یک عملکرد کوتاه برای خاتمه دادن به چرخش های مصنوعی که بیش از حد OOD هستند ، انجام می دهد.از نظر تجربی ، ما می دانیم که MOMO بدون مدل و مدل مبتنی بر مدل عملکرد خوبی دارند ، و دومی از خطوط قبلی مبتنی بر مدل و بدون مدل در اکثر مجموعه داده های D4RL آزمایش شده است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.