| عنوان مقاله به انگلیسی | Heavy-Ball Momentum Accelerated Actor-Critic With Function Approximation | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله تکانه توپ سنگین بازیگر- منتقد با عملکرد تقریبی | ||||||||
| نویسندگان | Yanjie Dong, Haijun Zhang, Gang Wang, Shisheng Cui, Xiping Hu | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 11 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی , | ||||||||
| توضیحات | Submitted 16 August, 2024; v1 submitted 13 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | ارائه شده 16 اوت 2024 ؛V1 ارسال شده 13 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
By using an parametric value function to replace the Monte-Carlo rollouts for value estimation, the actor-critic (AC) algorithms can reduce the variance of stochastic policy gradient so that to improve the convergence rate. While existing works mainly focus on analyzing convergence rate of AC algorithms under Markovian noise, the impacts of momentum on AC algorithms remain largely unexplored. In this work, we first propose a heavy-ball momentum based advantage actor-critic (\mbox{HB-A2C}) algorithm by integrating the heavy-ball momentum into the critic recursion that is parameterized by a linear function. When the sample trajectory follows a Markov decision process, we quantitatively certify the acceleration capability of the proposed HB-A2C algorithm. Our theoretical results demonstrate that the proposed HB-A2C finds an $ε$-approximate stationary point with $\oo{ε^{-2}}$ iterations for reinforcement learning tasks with Markovian noise. Moreover, we also reveal the dependence of learning rates on the length of the sample trajectory. By carefully selecting the momentum factor of the critic recursion, the proposed HB-A2C can balance the errors introduced by the initialization and the stoschastic approximation.
چکیده به فارسی (ترجمه ماشینی)
با استفاده از یک تابع مقدار پارامتری برای جایگزینی روال های مونت-کارلو برای برآورد ارزش ، الگوریتم های بازیگر-انتقادی (AC) می توانند واریانس شیب سیاست تصادفی را کاهش دهند تا در جهت بهبود نرخ همگرایی.در حالی که کارهای موجود عمدتاً بر تجزیه و تحلیل میزان همگرایی الگوریتم های AC تحت نویز مارکوویان متمرکز است ، تأثیر حرکت بر الگوریتم های AC تا حد زیادی ناشناخته باقی مانده است.در این کار ، ما ابتدا با ادغام حرکت توپ سنگین در بازگشت انتقاد که توسط یک عملکرد خطی پارامتر می شود ، یک الگوریتم بازیگر نقدی (\ mbox {HB-A2C}) را پیشنهاد می کنیم.هنگامی که مسیر نمونه از یک فرآیند تصمیم گیری مارکوف پیروی می کند ، ما به صورت کمی توانایی شتاب الگوریتم HB-A2C پیشنهادی را تأیید می کنیم.نتایج نظری ما نشان می دهد که HB-A2C پیشنهادی یک نقطه ثابت and $ $ $ با $ \ oo {ε^{-2}}} $ تکرار برای کارهای یادگیری تقویت با سر و صدای مارکووی را پیدا می کند.علاوه بر این ، ما همچنین وابستگی نرخ یادگیری به طول مسیر نمونه را نشان می دهیم.با انتخاب دقیق عامل حرکت انتقاد از انتقاد ، HB-A2C پیشنهادی می تواند خطاهای معرفی شده توسط اولیه سازی و تقریب استوسستیک را متعادل کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.