| عنوان مقاله به انگلیسی | Maximally Permissive Reward Machines | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله دستگاه های پاداش حداکثر مجاز | ||||||||
| نویسندگان | Giovanni Varricchione, Natasha Alechina, Mehdi Dastani, Brian Logan | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 10 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی , | ||||||||
| توضیحات | Submitted 15 August, 2024; originally announced August 2024. , Comments: Paper accepted for publication at the European Conference on Artificial Intelligence (ECAI) 2024 , MSC Class: 68T05 | ||||||||
| توضیحات به فارسی | ارسال شده در 15 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: مقاله پذیرفته شده برای انتشار در کنفرانس اروپایی اطلاعات مصنوعی (ECAI) 2024 ، کلاس MSC: 68T05 | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Reward machines allow the definition of rewards for temporally extended tasks and behaviors. Specifying “informative” reward machines can be challenging. One way to address this is to generate reward machines from a high-level abstract description of the learning environment, using techniques such as AI planning. However, previous planning-based approaches generate a reward machine based on a single (sequential or partial-order) plan, and do not allow maximum flexibility to the learning agent. In this paper we propose a new approach to synthesising reward machines which is based on the set of partial order plans for a goal. We prove that learning using such “maximally permissive” reward machines results in higher rewards than learning using RMs based on a single plan. We present experimental results which support our theoretical claims by showing that our approach obtains higher rewards than the single-plan approach in practice.
چکیده به فارسی (ترجمه ماشینی)
دستگاه های پاداش می توانند تعریف پاداش را برای کارهای و رفتارهای طولانی مدت انجام دهند.مشخص کردن ماشین های پاداش “آموزنده” می تواند چالش برانگیز باشد.یکی از راه های پرداختن به این امر ، تولید ماشین های پاداش از توضیحات انتزاعی سطح بالا از محیط یادگیری ، با استفاده از تکنیک هایی مانند برنامه ریزی AI است.با این حال ، رویکردهای مبتنی بر برنامه ریزی قبلی یک دستگاه پاداش را بر اساس یک برنامه واحد (متوالی یا مرتبه جزئی) ایجاد می کنند و حداکثر انعطاف پذیری را به عامل یادگیری نمی دهند.در این مقاله ما یک رویکرد جدید برای سنتز ماشین های پاداش ارائه می دهیم که مبتنی بر مجموعه برنامه های سفارش جزئی برای یک هدف است.ما ثابت می کنیم که یادگیری با استفاده از چنین دستگاه های پاداش “حداکثر مجاز” منجر به پاداش بالاتر از یادگیری استفاده از RMS بر اساس یک برنامه واحد می شود.ما نتایج تجربی را ارائه می دهیم که با نشان دادن اینکه رویکرد ما در عمل پاداش های بالاتری کسب می کند ، از ادعاهای نظری ما پشتیبانی می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.