ترجمه فارسی مقاله تکانه توپ سنگین بازیگر- منتقد با عملکرد تقریبی

440,000 تومان

عنوان مقاله به انگلیسی Heavy-Ball Momentum Accelerated Actor-Critic With Function Approximation
عنوان مقاله به فارسی ترجمه فارسی مقاله تکانه توپ سنگین بازیگر- منتقد با عملکرد تقریبی
نویسندگان Yanjie Dong, Haijun Zhang, Gang Wang, Shisheng Cui, Xiping Hu
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 11
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی ,
توضیحات Submitted 16 August, 2024; v1 submitted 13 August, 2024; originally announced August 2024.
توضیحات به فارسی ارائه شده 16 اوت 2024 ؛V1 ارسال شده 13 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

By using an parametric value function to replace the Monte-Carlo rollouts for value estimation, the actor-critic (AC) algorithms can reduce the variance of stochastic policy gradient so that to improve the convergence rate. While existing works mainly focus on analyzing convergence rate of AC algorithms under Markovian noise, the impacts of momentum on AC algorithms remain largely unexplored. In this work, we first propose a heavy-ball momentum based advantage actor-critic (\mbox{HB-A2C}) algorithm by integrating the heavy-ball momentum into the critic recursion that is parameterized by a linear function. When the sample trajectory follows a Markov decision process, we quantitatively certify the acceleration capability of the proposed HB-A2C algorithm. Our theoretical results demonstrate that the proposed HB-A2C finds an $ε$-approximate stationary point with $\oo{ε^{-2}}$ iterations for reinforcement learning tasks with Markovian noise. Moreover, we also reveal the dependence of learning rates on the length of the sample trajectory. By carefully selecting the momentum factor of the critic recursion, the proposed HB-A2C can balance the errors introduced by the initialization and the stoschastic approximation.

چکیده به فارسی (ترجمه ماشینی)

با استفاده از یک تابع مقدار پارامتری برای جایگزینی روال های مونت-کارلو برای برآورد ارزش ، الگوریتم های بازیگر-انتقادی (AC) می توانند واریانس شیب سیاست تصادفی را کاهش دهند تا در جهت بهبود نرخ همگرایی.در حالی که کارهای موجود عمدتاً بر تجزیه و تحلیل میزان همگرایی الگوریتم های AC تحت نویز مارکوویان متمرکز است ، تأثیر حرکت بر الگوریتم های AC تا حد زیادی ناشناخته باقی مانده است.در این کار ، ما ابتدا با ادغام حرکت توپ سنگین در بازگشت انتقاد که توسط یک عملکرد خطی پارامتر می شود ، یک الگوریتم بازیگر نقدی (\ mbox {HB-A2C}) را پیشنهاد می کنیم.هنگامی که مسیر نمونه از یک فرآیند تصمیم گیری مارکوف پیروی می کند ، ما به صورت کمی توانایی شتاب الگوریتم HB-A2C پیشنهادی را تأیید می کنیم.نتایج نظری ما نشان می دهد که HB-A2C پیشنهادی یک نقطه ثابت and $ $ $ با $ \ oo {ε^{-2}}} $ تکرار برای کارهای یادگیری تقویت با سر و صدای مارکووی را پیدا می کند.علاوه بر این ، ما همچنین وابستگی نرخ یادگیری به طول مسیر نمونه را نشان می دهیم.با انتخاب دقیق عامل حرکت انتقاد از انتقاد ، HB-A2C پیشنهادی می تواند خطاهای معرفی شده توسط اولیه سازی و تقریب استوسستیک را متعادل کند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله تکانه توپ سنگین بازیگر- منتقد با عملکرد تقریبی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا