| عنوان مقاله به انگلیسی | CAT: Caution Aware Transfer in Reinforcement Learning via Distributional Risk | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله گربه: احتیاط انتقال آگاهانه در یادگیری تقویت از طریق خطر توزیع | ||||||||
| نویسندگان | Mohamad Fares El Hajj Chehade, Amrit Singh Bedi, Amy Zhang, Hao Zhu | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 18 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,یادگیری ماشین , | ||||||||
| توضیحات | Submitted 16 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | ارائه شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Transfer learning in reinforcement learning (RL) has become a pivotal strategy for improving data efficiency in new, unseen tasks by utilizing knowledge from previously learned tasks. This approach is especially beneficial in real-world deployment scenarios where computational resources are constrained and agents must adapt rapidly to novel environments. However, current state-of-the-art methods often fall short in ensuring safety during the transfer process, particularly when unforeseen risks emerge in the deployment phase. In this work, we address these limitations by introducing a novel Caution-Aware Transfer Learning (CAT) framework. Unlike traditional approaches that limit risk considerations to mean-variance, we define “caution” as a more generalized and comprehensive notion of risk. Our core innovation lies in optimizing a weighted sum of reward return and caution-based on state-action occupancy measures-during the transfer process, allowing for a rich representation of diverse risk factors. To the best of our knowledge, this is the first work to explore the optimization of such a generalized risk notion within the context of transfer RL. Our contributions are threefold: (1) We propose a Caution-Aware Transfer (CAT) framework that evaluates source policies within the test environment and constructs a new policy that balances reward maximization and caution. (2) We derive theoretical sub-optimality bounds for our method, providing rigorous guarantees of its efficacy. (3) We empirically validate CAT, demonstrating that it consistently outperforms existing methods by delivering safer policies under varying risk conditions in the test tasks.
چکیده به فارسی (ترجمه ماشینی)
انتقال یادگیری در یادگیری تقویت (RL) با استفاده از دانش از کارهای قبلی که قبلاً آموخته شده است ، به یک استراتژی مهم برای بهبود کارآیی داده ها در کارهای جدید و غیب تبدیل شده است.این رویکرد به ویژه در سناریوهای استقرار در دنیای واقعی مفید است که در آن منابع محاسباتی محدود هستند و عوامل باید به سرعت با محیط های جدید سازگار شوند.با این حال ، روشهای پیشرفته فعلی اغلب در اطمینان از ایمنی در طی فرآیند انتقال ، به ویژه هنگامی که خطرات پیش بینی نشده در مرحله استقرار ظهور می کنند ، کوتاه می آیند.در این کار ، ما با معرفی یک چارچوب جدید یادگیری انتقال (CAT) با احتیاط جدید ، به این محدودیت ها می پردازیم.بر خلاف رویکردهای سنتی که ملاحظات ریسک را به معنادار محدود می کند ، “احتیاط” را به عنوان یک مفهوم عمومی تر و جامع تر از خطر تعریف می کنیم.نوآوری اصلی ما در بهینه سازی مبلغ وزنی بازده پاداش و احتیاط مبتنی بر اقدامات اشغال دولت در حال انجام روند انتقال است و این امکان را فراهم می کند تا یک نمایش غنی از عوامل خطر متنوع را نشان دهد.به بهترین دانش ما ، این اولین کار برای کشف بهینه سازی چنین مفهوم ریسک عمومی در چارچوب انتقال RL است.مشارکتهای ما سه گانه است: (1) ما یک چارچوب انتقال محتاط (CAT) را پیشنهاد می کنیم که سیاست های منبع را در محیط آزمون ارزیابی می کند و سیاست جدیدی را ایجاد می کند که باعث افزایش حداکثر و احتیاط پاداش می شود.(2) ما برای روش خود مرزهای زیر مطلوب نظری را بدست می آوریم و تضمین های جدی از اثربخشی آن را ارائه می دهیم.(3) ما به صورت تجربی CAT را تأیید می کنیم ، نشان می دهد که با ارائه سیاست های ایمن تر در شرایط خطر مختلف در کارهای آزمایشی ، به طور مداوم از روشهای موجود بهتر عمل می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.