ترجمه فارسی مقاله ارزیابی چند سیاست کارآمد برای یادگیری تقویت

1,000,000 تومان

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Efficient Multi-Policy Evaluation for Reinforcement Learning
عنوان مقاله به فارسی	ترجمه فارسی مقاله ارزیابی چند سیاست کارآمد برای یادگیری تقویت
نویسندگان	Shuze Liu, Yuxin Chen, Shangtong Zhang
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	25
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Machine Learning,یادگیری ماشین ,
توضیحات	Submitted 16 August, 2024; originally announced August 2024.
توضیحات به فارسی	ارائه شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

To unbiasedly evaluate multiple target policies, the dominant approach among RL practitioners is to run and evaluate each target policy separately. However, this evaluation method is far from efficient because samples are not shared across policies, and running target policies to evaluate themselves is actually not optimal. In this paper, we address these two weaknesses by designing a tailored behavior policy to reduce the variance of estimators across all target policies. Theoretically, we prove that executing this behavior policy with manyfold fewer samples outperforms on-policy evaluation on every target policy under characterized conditions. Empirically, we show our estimator has a substantially lower variance compared with previous best methods and achieves state-of-the-art performance in a broad range of environments.

چکیده به فارسی (ترجمه ماشینی)

برای ارزیابی بی طرفانه سیاست های هدف چندگانه ، رویکرد غالب در بین پزشکان RL اجرای و ارزیابی هر سیاست هدف به طور جداگانه است.با این حال ، این روش ارزیابی بسیار کارآمد است زیرا نمونه ها در سیاست ها به اشتراک گذاشته نمی شوند و اجرای سیاست های هدف برای ارزیابی خود در واقع بهینه نیست.در این مقاله ، ما با طراحی یک سیاست رفتار متناسب برای کاهش واریانس برآوردگرها در تمام سیاست های هدف ، به این دو ضعف می پردازیم.از لحاظ تئوریکی ، ما ثابت می کنیم که اجرای این سیاست رفتاری با نمونه های کمتری از ارزیابی در سیاست در هر خط مشی هدف تحت شرایط مشخص استفاده می کند.از نظر تجربی ، ما نشان می دهیم که برآوردگر ما در مقایسه با بهترین روشهای قبلی واریانس قابل توجهی پایین تر دارد و به عملکرد پیشرفته در طیف گسترده ای از محیط ها می رسد.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله ارزیابی چند سیاست کارآمد برای یادگیری تقویت”

ترجمه فارسی مقاله ارزیابی چند سیاست کارآمد برای یادگیری تقویت

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله یادگیری سیاست های ترکیبی برای MPC با کاربرد پرواز هواپیماهای بدون سرنشین در محیط های دینامیک ناشناخته

مقاله تشخیص گفتار بصری چند زبانه با یک مدل واحد با یادگیری با واحدهای گفتار بصری گسسته

مقاله یک معماری چند منطقه ای برای بهینه سازی شبکه های توزیع مبتنی بر بازخورد در زمان واقعی

مقاله طراحی الگوی سیگنال مرجع شانه برای ارتباطات و سنجش یکپارچه