ترجمه فارسی مقاله برنامه ریزی ترانسفورماتور: یادگیری تقویت کننده آفلاین طولانی با توکن های برنامه ریزی

220,000 تومان

عنوان مقاله به انگلیسی Planning Transformer: Long-Horizon Offline Reinforcement Learning with Planning Tokens
عنوان مقاله به فارسی ترجمه فارسی مقاله برنامه ریزی ترانسفورماتور: یادگیری تقویت کننده آفلاین طولانی با توکن های برنامه ریزی
نویسندگان Joseph Clinton, Robert Lieck
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 11
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Artificial Intelligence,Computation and Language,یادگیری ماشین , هوش مصنوعی , محاسبات و زبان ,
توضیحات Submitted 14 September, 2024; originally announced September 2024. , Comments: 11 pages, 5 figures, Submitted to AAAI
توضیحات به فارسی ارسال شده در 14 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد ، نظرات: 11 صفحه ، 5 شکل ، ارسال شده به AAAI
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Supervised learning approaches to offline reinforcement learning, particularly those utilizing the Decision Transformer, have shown effectiveness in continuous environments and for sparse rewards. However, they often struggle with long-horizon tasks due to the high compounding error of auto-regressive models. To overcome this limitation, we go beyond next-token prediction and introduce Planning Tokens, which contain high-level, long time-scale information about the agent’s future. Predicting dual time-scale tokens at regular intervals enables our model to use these long-horizon Planning Tokens as a form of implicit planning to guide its low-level policy and reduce compounding error. This architectural modification significantly enhances performance on long-horizon tasks, establishing a new state-of-the-art in complex D4RL environments. Additionally, we demonstrate that Planning Tokens improve the interpretability of the model’s policy through the interpretable plan visualisations and attention map.

چکیده به فارسی (ترجمه ماشینی)

رویکردهای یادگیری تحت نظارت برای یادگیری تقویت آفلاین ، به ویژه آنهایی که از ترانسفورماتور تصمیم گیری استفاده می کنند ، در محیط های مداوم و برای پاداش های پراکنده اثربخشی نشان داده اند.با این حال ، آنها اغلب به دلیل خطای ترکیبی بالای مدل های بازپرداخت خودکار با کارهای طولانی افکار مبارزه می کنند.برای غلبه بر این محدودیت ، ما فراتر از پیش بینی های بعدی را پیش می رویم و نشانه های برنامه ریزی را معرفی می کنیم ، که حاوی اطلاعات در مقیاس طولانی و طولانی مدت در مورد آینده عامل است.پیش بینی نشانه های در مقیاس دوگانه در فواصل منظم ، مدل ما را قادر می سازد از این نشانه های برنامه ریزی افکار طولانی به عنوان نوعی برنامه ریزی ضمنی برای هدایت خط مشی سطح پایین خود و کاهش خطای ترکیبی استفاده کند.این اصلاح معماری به طور قابل توجهی عملکرد در کارهای افکار طولانی را افزایش می دهد و یک پیشرفته جدید در محیط های پیچیده D4RL ایجاد می کند.علاوه بر این ، ما نشان می دهیم که برنامه های برنامه ریزی از طریق تجسم برنامه های قابل تفسیر و نقشه توجه ، تفسیر سیاست مدل را بهبود می بخشند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله برنامه ریزی ترانسفورماتور: یادگیری تقویت کننده آفلاین طولانی با توکن های برنامه ریزی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا