ترجمه فارسی مقاله SelfBC: شبیه‌سازی رفتار خود برای یادگیری تقویتی آفلاین

19,000 تومان – 600,000 تومان

نوع دانلود

شناسه محصول: نامعلوم دسته: ترجمه, مقالات

عنوان مقاله به انگلیسی	SelfBC: Self Behavior Cloning for Offline Reinforcement Learning
عنوان مقاله به فارسی	ترجمه فارسی مقاله SelfBC: شبیه‌سازی رفتار خود برای یادگیری تقویتی آفلاین
نویسندگان	Shirong Liu, Chenjia Bai, Zixian Guo, Hao Zhang, Gaurav Sharma, Yang Liu
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	15
دسته بندی موضوعات	Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی ,
توضیحات	Submitted 4 August, 2024; originally announced August 2024.
توضیحات به فارسی	ارسال شده در 4 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 600,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Policy constraint methods in offline reinforcement learning employ additional regularization techniques to constrain the discrepancy between the learned policy and the offline dataset. However, these methods tend to result in overly conservative policies that resemble the behavior policy, thus limiting their performance. We investigate this limitation and attribute it to the static nature of traditional constraints. In this paper, we propose a novel dynamic policy constraint that restricts the learned policy on the samples generated by the exponential moving average of previously learned policies. By integrating this self-constraint mechanism into off-policy methods, our method facilitates the learning of non-conservative policies while avoiding policy collapse in the offline setting. Theoretical results show that our approach results in a nearly monotonically improved reference policy. Extensive experiments on the D4RL MuJoCo domain demonstrate that our proposed method achieves state-of-the-art performance among the policy constraint methods.

چکیده به فارسی (ترجمه ماشینی)

روشهای محدودیت سیاست در یادگیری تقویت آفلاین از تکنیک های تنظیم مجدد اضافی برای محدود کردن اختلاف بین خط مشی آموخته شده و مجموعه داده های آفلاین استفاده می کنند.با این حال ، این روش ها تمایل به سیاست های بیش از حد محافظه کارانه دارند که شبیه سیاست رفتار هستند ، بنابراین عملکرد آنها را محدود می کند.ما این محدودیت را بررسی می کنیم و آن را به ماهیت استاتیک محدودیت های سنتی نسبت می دهیم.در این مقاله ، ما یک محدودیت سیاست پویا جدید را پیشنهاد می کنیم که سیاست آموخته شده را در نمونه های تولید شده توسط میانگین متحرک نمایی سیاست های قبلاً آموخته شده محدود می کند.با ادغام این مکانیسم خود محدودیت در روشهای خارج از سیاست ، روش ما یادگیری سیاست های غیر محافظه کار ضمن جلوگیری از سقوط سیاست در تنظیمات آفلاین ، تسهیل می کند.نتایج نظری نشان می دهد که رویکرد ما منجر به یک سیاست مرجع تقریباً یکنواخت بهبود یافته است.آزمایش های گسترده در مورد دامنه D4RL Mujoco نشان می دهد که روش پیشنهادی ما به عملکرد پیشرفته در بین روشهای محدودیت سیاست می رسد.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نوع دانلود	دانلود مقاله اصل انگلیسی, دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله, سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله SelfBC: شبیه‌سازی رفتار خود برای یادگیری تقویتی آفلاین”

ترجمه فارسی مقاله SelfBC: شبیه‌سازی رفتار خود برای یادگیری تقویتی آفلاین

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

سفارش ترجمه فارسی مقاله

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

ترجمه فارسی مقاله استنباط روش لحظه برای GLMS و عملکردهای دو برابر قوی تحت مجانبی متناسب

ترجمه فارسی مقاله یک گزارش روش شناختی در مورد تشخیص ناهنجاری در نمودارهای دانش پویا

ترجمه فارسی مقاله کشف اکسیدهای آنتروپی بالا با یک پتانسیل متقابل یادگیری ماشین

کتاب ترجمه تجربی: کار ترجمه در عصر تولید الگوریتمی (تمرین به عنوان تحقیق)