| عنوان مقاله به انگلیسی | SelfBC: Self Behavior Cloning for Offline Reinforcement Learning |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله SelfBC: شبیهسازی رفتار خود برای یادگیری تقویتی آفلاین |
| نویسندگان | Shirong Liu, Chenjia Bai, Zixian Guo, Hao Zhang, Gaurav Sharma, Yang Liu |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 15 |
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی , |
| توضیحات | Submitted 4 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده در 4 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 600,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Policy constraint methods in offline reinforcement learning employ additional regularization techniques to constrain the discrepancy between the learned policy and the offline dataset. However, these methods tend to result in overly conservative policies that resemble the behavior policy, thus limiting their performance. We investigate this limitation and attribute it to the static nature of traditional constraints. In this paper, we propose a novel dynamic policy constraint that restricts the learned policy on the samples generated by the exponential moving average of previously learned policies. By integrating this self-constraint mechanism into off-policy methods, our method facilitates the learning of non-conservative policies while avoiding policy collapse in the offline setting. Theoretical results show that our approach results in a nearly monotonically improved reference policy. Extensive experiments on the D4RL MuJoCo domain demonstrate that our proposed method achieves state-of-the-art performance among the policy constraint methods.
چکیده به فارسی (ترجمه ماشینی)
روشهای محدودیت سیاست در یادگیری تقویت آفلاین از تکنیک های تنظیم مجدد اضافی برای محدود کردن اختلاف بین خط مشی آموخته شده و مجموعه داده های آفلاین استفاده می کنند.با این حال ، این روش ها تمایل به سیاست های بیش از حد محافظه کارانه دارند که شبیه سیاست رفتار هستند ، بنابراین عملکرد آنها را محدود می کند.ما این محدودیت را بررسی می کنیم و آن را به ماهیت استاتیک محدودیت های سنتی نسبت می دهیم.در این مقاله ، ما یک محدودیت سیاست پویا جدید را پیشنهاد می کنیم که سیاست آموخته شده را در نمونه های تولید شده توسط میانگین متحرک نمایی سیاست های قبلاً آموخته شده محدود می کند.با ادغام این مکانیسم خود محدودیت در روشهای خارج از سیاست ، روش ما یادگیری سیاست های غیر محافظه کار ضمن جلوگیری از سقوط سیاست در تنظیمات آفلاین ، تسهیل می کند.نتایج نظری نشان می دهد که رویکرد ما منجر به یک سیاست مرجع تقریباً یکنواخت بهبود یافته است.آزمایش های گسترده در مورد دامنه D4RL Mujoco نشان می دهد که روش پیشنهادی ما به عملکرد پیشرفته در بین روشهای محدودیت سیاست می رسد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.