ترجمه فارسی مقاله آموزش تقویتی مبتنی بر مدل آفلاین با ضد اکتشاف

160,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Offline Model-Based Reinforcement Learning with Anti-Exploration
عنوان مقاله به فارسی	ترجمه فارسی مقاله آموزش تقویتی مبتنی بر مدل آفلاین با ضد اکتشاف
نویسندگان	Padmanaba Srinivasan, William Knottenbelt
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	8
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی ,
توضیحات	Submitted 20 August, 2024; originally announced August 2024.
توضیحات به فارسی	20 اوت 2024 ارسال شد.در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Model-based reinforcement learning (MBRL) algorithms learn a dynamics model from collected data and apply it to generate synthetic trajectories to enable faster learning. This is an especially promising paradigm in offline reinforcement learning (RL) where data may be limited in quantity, in addition to being deficient in coverage and quality. Practical approaches to offline MBRL usually rely on ensembles of dynamics models to prevent exploitation of any individual model and to extract uncertainty estimates that penalize values in states far from the dataset support. Uncertainty estimates from ensembles can vary greatly in scale, making it challenging to generalize hyperparameters well across even similar tasks. In this paper, we present Morse Model-based offline RL (MoMo), which extends the anti-exploration paradigm found in offline model-free RL to the model-based space. We develop model-free and model-based variants of MoMo and show how the model-free version can be extended to detect and deal with out-of-distribution (OOD) states using explicit uncertainty estimation without the need for large ensembles. MoMo performs offline MBRL using an anti-exploration bonus to counteract value overestimation in combination with a policy constraint, as well as a truncation function to terminate synthetic rollouts that are excessively OOD. Experimentally, we find that both model-free and model-based MoMo perform well, and the latter outperforms prior model-based and model-free baselines on the majority of D4RL datasets tested.

چکیده به فارسی (ترجمه ماشینی)

الگوریتم های یادگیری تقویت مبتنی بر مدل (MBRL) یک مدل دینامیک را از داده های جمع آوری شده یاد می گیرند و از آن برای تولید مسیرهای مصنوعی استفاده می کنند تا یادگیری سریعتر را فعال کنند.این یک الگوی مخصوصاً امیدوار کننده در یادگیری تقویت کننده آفلاین (RL) است که علاوه بر کمبود در پوشش و کیفیت ، داده ها ممکن است از نظر کمیت محدود باشد.رویکردهای عملی به MBRL آفلاین معمولاً برای جلوگیری از بهره برداری از هر مدل فردی و استخراج تخمین های عدم اطمینان که مقادیر را در حالت های دور از پشتیبانی مجموعه داده مجازات می کند ، به مجموعه های مدل های دینامیک متکی هستند.برآورد عدم اطمینان از مجموعه ها می تواند در مقیاس بسیار متفاوت باشد ، و باعث می شود تعمیم HyperParameters به خوبی در کارهای مشابه به چالش کشیده شود.در این مقاله ، ما RL آفلاین مبتنی بر مدل مورس (MOMO) را ارائه می دهیم ، که الگوی ضد اکتشافی موجود در RL بدون مدل آفلاین را به فضای مبتنی بر مدل گسترش می دهد.ما انواع بدون مدل و مدل مبتنی بر MOMO را توسعه می دهیم و نشان می دهیم که چگونه می توان نسخه بدون مدل را برای شناسایی و برخورد با حالت های خارج از توزیع (OOD) با استفاده از برآورد عدم اطمینان صریح و بدون نیاز به گروه های بزرگ گسترش داد.MOMO MBRL آفلاین را با استفاده از یک پاداش ضد اکتشافی برای مقابله با ارزیابی بیش از حد در ترکیب با یک محدودیت سیاست ، و همچنین یک عملکرد کوتاه برای خاتمه دادن به چرخش های مصنوعی که بیش از حد OOD هستند ، انجام می دهد.از نظر تجربی ، ما می دانیم که MOMO بدون مدل و مدل مبتنی بر مدل عملکرد خوبی دارند ، و دومی از خطوط قبلی مبتنی بر مدل و بدون مدل در اکثر مجموعه داده های D4RL آزمایش شده است.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله آموزش تقویتی مبتنی بر مدل آفلاین با ضد اکتشاف”

ترجمه فارسی مقاله آموزش تقویتی مبتنی بر مدل آفلاین با ضد اکتشاف

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله تقسیم بندی CT کبد از طریق رمزگذاری مبتنی بر PVT و رمزگشایی تصفیه شده

مقاله طراحی سیگنال های مرجع عمومی برای ارتباطات و سنجش یکپارچه با الگوریتم های با وضوح بالا

مقاله تشخیص گوشه کارآمد حافظه برای سنسورهای دید پویای مبتنی بر رویداد

مقاله یادگیری سیاست های ترکیبی برای MPC با کاربرد پرواز هواپیماهای بدون سرنشین در محیط های دینامیک ناشناخته