| عنوان مقاله به انگلیسی | Learning Provably Robust Policies in Uncertain Parametric Environments |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله یادگیری سیاستهای مقاوم اثباتپذیر در محیطهای پارامتری نامشخص |
| نویسندگان | Yannik Schnitzer, Alessandro Abate, David Parker |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 25 |
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,Systems and Control,یادگیری ماشین , هوش مصنوعی , سیستم ها و کنترل , |
| توضیحات | Submitted 6 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارائه شده در 6 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 1,000,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
We present a data-driven approach for learning MDP policies that are robust across stochastic environments whose transition probabilities are defined by parameters with an unknown distribution. We produce probably approximately correct (PAC) guarantees for the performance of these learned policies in a new, unseen environment over the unknown distribution. Our approach is based on finite samples of the MDP environments, for each of which we build an approximation of the model as an interval MDP, by exploring a set of generated trajectories. We use the built approximations to synthesise a single policy that performs well (meets given requirements) across the sampled environments, and furthermore bound its risk (of not meeting the given requirements) when deployed in an unseen environment. Our procedure offers a trade-off between the guaranteed performance of the learned policy and the risk of not meeting the guarantee in an unseen environment. Our approach exploits knowledge of the environment’s state space and graph structure, and we show how additional knowledge of its parametric structure can be leveraged to optimize learning and to obtain tighter guarantees from less samples. We evaluate our approach on a diverse range of established benchmarks, demonstrating that we can generate highly performing and robust policies, along with guarantees that tightly quantify their performance and the associated risk.
چکیده به فارسی (ترجمه ماشینی)
ما یک رویکرد داده محور برای یادگیری سیاست های MDP ارائه می دهیم که در محیط های تصادفی قوی هستند که احتمال انتقال آنها توسط پارامترهای با توزیع ناشناخته تعریف می شود.ما احتمالاً ضمانت های تقریباً صحیح (PAC) را برای عملکرد این سیاست های آموخته شده در یک محیط جدید و غیب نسبت به توزیع ناشناخته تولید می کنیم.رویکرد ما مبتنی بر نمونه های محدود از محیط های MDP است که برای هر یک از آنها با کاوش مجموعه ای از مسیرهای تولید شده ، تقریب مدل را به عنوان یک MDP بازه می سازیم.ما از تقریب های ساخته شده برای سنتز یک سیاست واحد استفاده می کنیم که عملکرد خوبی دارد (نیازهای با توجه به شرایط) را در محیط های نمونه برداری انجام می دهد ، و علاوه بر این ، هنگام استقرار در یک محیط غیب ، خطر آن (عدم برآورده کردن الزامات داده شده) را محدود می کند.رویه ما معامله ای بین عملکرد تضمین شده از سیاست آموخته شده و خطر عدم تحقق ضمانت در یک محیط غیب ارائه می دهد.رویکرد ما از دانش در مورد فضای حالت و ساختار نمودار محیط استفاده می کند ، و ما نشان می دهیم که چگونه دانش اضافی از ساختار پارامتری آن می تواند برای بهینه سازی یادگیری و به دست آوردن ضمانت های محکم تر از نمونه های کمتر استفاده شود.ما رویکرد خود را در مورد طیف متنوعی از معیارهای مستقر ارزیابی می کنیم ، نشان می دهیم که می توانیم سیاست های بسیار عملکردی و قوی را تولید کنیم ، به همراه تضمین هایی که عملکرد آنها و خطر مرتبط را به شدت کم می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.