ترجمه فارسی مقاله ارزیابی چند سیاست کارآمد برای یادگیری تقویت

1,000,000 تومان

عنوان مقاله به انگلیسی Efficient Multi-Policy Evaluation for Reinforcement Learning
عنوان مقاله به فارسی ترجمه فارسی مقاله ارزیابی چند سیاست کارآمد برای یادگیری تقویت
نویسندگان Shuze Liu, Yuxin Chen, Shangtong Zhang
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 25
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,یادگیری ماشین ,
توضیحات Submitted 16 August, 2024; originally announced August 2024.
توضیحات به فارسی ارائه شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

To unbiasedly evaluate multiple target policies, the dominant approach among RL practitioners is to run and evaluate each target policy separately. However, this evaluation method is far from efficient because samples are not shared across policies, and running target policies to evaluate themselves is actually not optimal. In this paper, we address these two weaknesses by designing a tailored behavior policy to reduce the variance of estimators across all target policies. Theoretically, we prove that executing this behavior policy with manyfold fewer samples outperforms on-policy evaluation on every target policy under characterized conditions. Empirically, we show our estimator has a substantially lower variance compared with previous best methods and achieves state-of-the-art performance in a broad range of environments.

چکیده به فارسی (ترجمه ماشینی)

برای ارزیابی بی طرفانه سیاست های هدف چندگانه ، رویکرد غالب در بین پزشکان RL اجرای و ارزیابی هر سیاست هدف به طور جداگانه است.با این حال ، این روش ارزیابی بسیار کارآمد است زیرا نمونه ها در سیاست ها به اشتراک گذاشته نمی شوند و اجرای سیاست های هدف برای ارزیابی خود در واقع بهینه نیست.در این مقاله ، ما با طراحی یک سیاست رفتار متناسب برای کاهش واریانس برآوردگرها در تمام سیاست های هدف ، به این دو ضعف می پردازیم.از لحاظ تئوریکی ، ما ثابت می کنیم که اجرای این سیاست رفتاری با نمونه های کمتری از ارزیابی در سیاست در هر خط مشی هدف تحت شرایط مشخص استفاده می کند.از نظر تجربی ، ما نشان می دهیم که برآوردگر ما در مقایسه با بهترین روشهای قبلی واریانس قابل توجهی پایین تر دارد و به عملکرد پیشرفته در طیف گسترده ای از محیط ها می رسد.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله ارزیابی چند سیاست کارآمد برای یادگیری تقویت”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا