| عنوان مقاله به انگلیسی | D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله D5RL: مجموعه داده های متنوع برای یادگیری تقویت عمیق داده محور | ||||||||
| نویسندگان | Rafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 20 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Robotics,یادگیری ماشین , روباتیک , | ||||||||
| توضیحات | Submitted 15 August, 2024; originally announced August 2024. , Comments: RLC 2024 | ||||||||
| توضیحات به فارسی | ارسال شده در 15 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: RLC 2024 | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Offline reinforcement learning algorithms hold the promise of enabling data-driven RL methods that do not require costly or dangerous real-world exploration and benefit from large pre-collected datasets. This in turn can facilitate real-world applications, as well as a more standardized approach to RL research. Furthermore, offline RL methods can provide effective initializations for online finetuning to overcome challenges with exploration. However, evaluating progress on offline RL algorithms requires effective and challenging benchmarks that capture properties of real-world tasks, provide a range of task difficulties, and cover a range of challenges both in terms of the parameters of the domain (e.g., length of the horizon, sparsity of rewards) and the parameters of the data (e.g., narrow demonstration data or broad exploratory data). While considerable progress in offline RL in recent years has been enabled by simpler benchmark tasks, the most widely used datasets are increasingly saturating in performance and may fail to reflect properties of realistic tasks. We propose a new benchmark for offline RL that focuses on realistic simulations of robotic manipulation and locomotion environments, based on models of real-world robotic systems, and comprising a variety of data sources, including scripted data, play-style data collected by human teleoperators, and other data sources. Our proposed benchmark covers state-based and image-based domains, and supports both offline RL and online fine-tuning evaluation, with some of the tasks specifically designed to require both pre-training and fine-tuning. We hope that our proposed benchmark will facilitate further progress on both offline RL and fine-tuning algorithms. Website with code, examples, tasks, and data is available at \url{https://sites.google.com/view/d5rl/}
چکیده به فارسی (ترجمه ماشینی)
الگوریتم های یادگیری تقویت آفلاین نوید فعال کردن روشهای RL داده محور را دارند که نیازی به اکتشافات پر هزینه یا خطرناک در دنیای واقعی ندارند و از مجموعه داده های بزرگ از پیش جمع آوری شده بهره مند می شوند.این به نوبه خود می تواند برنامه های دنیای واقعی و همچنین یک رویکرد استاندارد تر برای تحقیقات RL را تسهیل کند.علاوه بر این ، روشهای آفلاین RL می توانند اولیه سازی مؤثر برای Finetuning آنلاین را برای غلبه بر چالش ها با اکتشاف فراهم کنند.با این حال ، ارزیابی پیشرفت در الگوریتم های RL آفلاین نیاز به معیارهای مؤثر و چالش برانگیز دارد که خصوصیات وظایف دنیای واقعی را ضبط می کند ، طیف وسیعی از مشکلات کار را فراهم می کند ، و طیف وسیعی از چالش ها را از نظر پارامترهای دامنه پوشش می دهد (به عنوان مثال ، طول مدت زمان.افق ، کمبود پاداش) و پارامترهای داده ها (به عنوان مثال ، داده های تظاهرات باریک یا داده های اکتشافی گسترده).در حالی که پیشرفت قابل توجهی در RL آفلاین در سالهای اخیر با انجام کارهای ساده تر معیار فعال شده است ، بیشترین کاربردهای پرکاربرد به طور فزاینده ای در عملکرد اشباع می شوند و ممکن است نتواند خصوصیات کارهای واقع گرایانه را منعکس کند.ما یک معیار جدید برای RL آفلاین پیشنهاد می کنیم که بر روی شبیه سازی های واقع گرایانه از دستکاری رباتیک و محیط های حرکتی ، بر اساس مدل های سیستم های روباتیک در دنیای واقعی ، و شامل انواع منابع داده ، از جمله داده های ضبط شده ، داده های سبک پخش شده توسط Teletoperators Human متمرکز شده است.، و سایر منابع داده.معیار پیشنهادی ما دامنه های مبتنی بر دولت و مبتنی بر تصویر را در بر می گیرد و از هر دو RL آفلاین و ارزیابی دقیق تنظیم آنلاین پشتیبانی می کند ، با برخی از کارهایی که به طور خاص طراحی شده اند به قبل از آموزش و تنظیم دقیق نیاز دارند.ما امیدواریم که معیار پیشنهادی ما پیشرفت بیشتر در هر دو الگوریتم های تنظیم کننده آفلاین و تنظیم دقیق را تسهیل کند.وب سایت با کد ، مثالها ، کارها و داده ها در \ url {https://sites.google.com/view/d5rl/} در دسترس است
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.