| عنوان مقاله به انگلیسی | Mitigating the Stability-Plasticity Dilemma in Adaptive Train Scheduling with Curriculum-Driven Continual DQN Expansion | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله کاهش معضل پایداری-پلاستیک در برنامه ریزی قطار تطبیقی با گسترش مداوم DQN برنامه درسی محور | ||||||||
| نویسندگان | Achref Jaziri, Etienne Künzel, Visvanathan Ramesh | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 9 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Neural and Evolutionary Computing,یادگیری ماشین , محاسبات عصبی و تکاملی , | ||||||||
| توضیحات | Submitted 19 August, 2024; originally announced August 2024. , Comments: 9 Pages, 2 Figures | ||||||||
| توضیحات به فارسی | ارسال شده در 19 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 9 صفحه ، 2 شکل | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
A continual learning agent builds on previous experiences to develop increasingly complex behaviors by adapting to non-stationary and dynamic environments while preserving previously acquired knowledge. However, scaling these systems presents significant challenges, particularly in balancing the preservation of previous policies with the adaptation of new ones to current environments. This balance, known as the stability-plasticity dilemma, is especially pronounced in complex multi-agent domains such as the train scheduling problem, where environmental and agent behaviors are constantly changing, and the search space is vast. In this work, we propose addressing these challenges in the train scheduling problem using curriculum learning. We design a curriculum with adjacent skills that build on each other to improve generalization performance. Introducing a curriculum with distinct tasks introduces non-stationarity, which we address by proposing a new algorithm: Continual Deep Q-Network (DQN) Expansion (CDE). Our approach dynamically generates and adjusts Q-function subspaces to handle environmental changes and task requirements. CDE mitigates catastrophic forgetting through EWC while ensuring high plasticity using adaptive rational activation functions. Experimental results demonstrate significant improvements in learning efficiency and adaptability compared to RL baselines and other adapted methods for continual learning, highlighting the potential of our method in managing the stability-plasticity dilemma in the adaptive train scheduling setting.
چکیده به فارسی (ترجمه ماشینی)
یک عامل یادگیری مداوم بر روی تجربیات قبلی برای ایجاد رفتارهای فزاینده پیچیده با تطبیق با محیط های غیر ثابت و پویا ضمن حفظ دانش قبلی به دست آمده ، ایجاد می کند.با این حال ، مقیاس بندی این سیستم ها چالش های قابل توجهی را نشان می دهد ، به ویژه در تعادل حفظ سیاست های قبلی با سازگاری با موارد جدید با محیط های فعلی.این تعادل ، که به عنوان معضل پایداری پلاستیک شناخته می شود ، به ویژه در حوزه های پیچیده چند عامل مانند مشکل برنامه ریزی قطار ، که در آن رفتارهای محیطی و عامل دائماً در حال تغییر هستند ، بیان می شود و فضای جستجو بسیار گسترده است.در این کار ، ما پیشنهاد می کنیم با استفاده از یادگیری برنامه درسی ، به این چالش ها در مشکل برنامه ریزی قطار بپردازیم.ما یک برنامه درسی با مهارت های مجاور طراحی می کنیم که برای بهبود عملکرد تعمیم بر روی یکدیگر ساخته شده است.معرفی یک برنامه درسی با وظایف مجزا ، عدم مؤثر بودن را معرفی می کند ، که ما با ارائه یک الگوریتم جدید به آن می پردازیم: گسترش مداوم Q-Network (DQN) (CDE).رویکرد ما به صورت پویا فضای زیر عملکرد Q را برای رسیدگی به تغییرات محیطی و نیازهای کار ایجاد و تنظیم می کند.CDE فراموش کردن فاجعه بار از طریق EWC ضمن اطمینان از انعطاف پذیری بالا با استفاده از توابع فعال سازی منطقی سازگار.نتایج تجربی نشان دهنده پیشرفت های قابل توجهی در کارآیی یادگیری و سازگاری در مقایسه با پایه های RL و سایر روش های سازگار برای یادگیری مداوم است ، و پتانسیل روش ما را در مدیریت معضل پایداری و پلاستیک در تنظیم برنامه ریزی قطار تطبیقی برجسته می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.