| عنوان مقاله به انگلیسی | Model-Based Transfer Learning for Contextual Reinforcement Learning |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله یادگیری انتقالی مبتنی بر مدل برای یادگیری تقویتی زمینهای |
| نویسندگان | Jung-Hoon Cho, Vindula Jayawardana, Sirui Li, Cathy Wu |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 28 |
| دسته بندی موضوعات | Machine Learning,یادگیری ماشین , |
| توضیحات | Submitted 8 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده در 8 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 1,120,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Deep reinforcement learning is a powerful approach to complex decision making. However, one issue that limits its practical application is its brittleness, sometimes failing to train in the presence of small changes in the environment. This work is motivated by the empirical observation that directly applying an already trained model to a related task often works remarkably well, also called zero-shot transfer. We take this practical trick one step further to consider how to systematically select good tasks to train, maximizing overall performance across a range of tasks. Given the high cost of training, it is critical to choose a small set of training tasks. The key idea behind our approach is to explicitly model the performance loss (generalization gap) incurred by transferring a trained model. We hence introduce Model-Based Transfer Learning (MBTL) for solving contextual RL problems. In this work, we model the performance loss as a simple linear function of task context similarity. Furthermore, we leverage Bayesian optimization techniques to efficiently model and estimate the unknown training performance of the task space. We theoretically show that the method exhibits regret that is sublinear in the number of training tasks and discuss conditions to further tighten regret bounds. We experimentally validate our methods using urban traffic and standard control benchmarks. Despite the conceptual simplicity, the experimental results suggest that MBTL can achieve greater performance than strong baselines, including exhaustive training on all tasks, multi-task training, and random selection of training tasks. This work lays the foundations for investigating explicit modeling of generalization, thereby enabling principled yet effective methods for contextual RL.
چکیده به فارسی (ترجمه ماشینی)
یادگیری تقویت عمیق یک رویکرد قدرتمند برای تصمیم گیری پیچیده است.با این حال ، یکی از موضوعاتی که کاربرد عملی آن را محدود می کند ، شرارت آن است ، و گاهی اوقات نتوانست در حضور تغییرات کوچک در محیط ، آموزش ببیند.این اثر با مشاهده تجربی ایجاد می شود که مستقیماً با استفاده از یک مدل از قبل آموزش دیده برای یک کار مرتبط ، اغلب به خوبی خوب عمل می کند ، همچنین به نام انتقال صفر نیز گفته می شود.ما این ترفند عملی را یک قدم جلوتر می گیریم تا در نظر بگیریم که چگونه به طور سیستماتیک وظایف خوب را برای آموزش انتخاب کنیم و عملکرد کلی را در طیف وسیعی از کارها به حداکثر برسانیم.با توجه به هزینه بالای آموزش ، انتخاب مجموعه کوچکی از کارهای آموزشی بسیار مهم است.ایده اصلی رویکرد ما این است که صریح مدل از دست دادن عملکرد (شکاف عمومی سازی) که با انتقال یک مدل آموزش دیده انجام می شود.از این رو ما یادگیری انتقال مبتنی بر مدل (MBTL) را برای حل مشکلات RL متنی معرفی می کنیم.در این کار ، ما از دست دادن عملکرد به عنوان یک عملکرد خطی ساده از شباهت متن کار مدل می کنیم.علاوه بر این ، ما از تکنیک های بهینه سازی بیزی برای مدل سازی کارآمد و برآورد عملکرد آموزش ناشناخته فضای کار استفاده می کنیم.ما از لحاظ تئوریکی نشان می دهیم که این روش پشیمانی است که در تعداد کارهای آموزشی زیرنویس است و در مورد شرایط برای محکم کردن مرزهای پشیمانی بحث می کند.ما به طور تجربی روشهای خود را با استفاده از ترافیک شهری و معیارهای کنترل استاندارد تأیید می کنیم.علیرغم سادگی مفهومی ، نتایج تجربی نشان می دهد که MBTL می تواند عملکرد بیشتری نسبت به پایه های قوی داشته باشد ، از جمله آموزش جامع در تمام کارها ، آموزش چند وظیفه ای و انتخاب تصادفی کارهای آموزشی.این کار پایه و اساس بررسی مدل سازی صریح عمومی سازی را ارائه می دهد ، در نتیجه روش های اصولی و در عین حال مؤثر برای RL متنی را قادر می سازد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.