| عنوان مقاله به انگلیسی | Efficient Multi-Policy Evaluation for Reinforcement Learning | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله ارزیابی چند سیاست کارآمد برای یادگیری تقویت | ||||||||
| نویسندگان | Shuze Liu, Yuxin Chen, Shangtong Zhang | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 25 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,یادگیری ماشین , | ||||||||
| توضیحات | Submitted 16 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | ارائه شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
To unbiasedly evaluate multiple target policies, the dominant approach among RL practitioners is to run and evaluate each target policy separately. However, this evaluation method is far from efficient because samples are not shared across policies, and running target policies to evaluate themselves is actually not optimal. In this paper, we address these two weaknesses by designing a tailored behavior policy to reduce the variance of estimators across all target policies. Theoretically, we prove that executing this behavior policy with manyfold fewer samples outperforms on-policy evaluation on every target policy under characterized conditions. Empirically, we show our estimator has a substantially lower variance compared with previous best methods and achieves state-of-the-art performance in a broad range of environments.
چکیده به فارسی (ترجمه ماشینی)
برای ارزیابی بی طرفانه سیاست های هدف چندگانه ، رویکرد غالب در بین پزشکان RL اجرای و ارزیابی هر سیاست هدف به طور جداگانه است.با این حال ، این روش ارزیابی بسیار کارآمد است زیرا نمونه ها در سیاست ها به اشتراک گذاشته نمی شوند و اجرای سیاست های هدف برای ارزیابی خود در واقع بهینه نیست.در این مقاله ، ما با طراحی یک سیاست رفتار متناسب برای کاهش واریانس برآوردگرها در تمام سیاست های هدف ، به این دو ضعف می پردازیم.از لحاظ تئوریکی ، ما ثابت می کنیم که اجرای این سیاست رفتاری با نمونه های کمتری از ارزیابی در سیاست در هر خط مشی هدف تحت شرایط مشخص استفاده می کند.از نظر تجربی ، ما نشان می دهیم که برآوردگر ما در مقایسه با بهترین روشهای قبلی واریانس قابل توجهی پایین تر دارد و به عملکرد پیشرفته در طیف گسترده ای از محیط ها می رسد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.