| عنوان مقاله به انگلیسی | SAPG: Split and Aggregate Policy Gradients |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله SAPG: گرادیانهای سیاست تقسیم و تجمیع |
| نویسندگان | Jayesh Singla, Ananye Agarwal, Deepak Pathak |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 15 |
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,Computer Vision and Pattern Recognition,Robotics,Systems and Control,یادگیری ماشین , هوش مصنوعی , چشم انداز رایانه و تشخیص الگوی , روباتیک , سیستم و کنترل , |
| توضیحات | Submitted 29 July, 2024; originally announced July 2024. , Comments: In ICML 2024 (Oral). Website at https://sapg-rl.github.io/ |
| توضیحات به فارسی | ارسال 29 ژوئیه 2024 ؛در ابتدا ژوئیه 2024 اعلام شد ، نظرات: در ICML 2024 (شفاهی).وب سایت در https://sapg-rl.github.io/ |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 600,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Despite extreme sample inefficiency, on-policy reinforcement learning, aka policy gradients, has become a fundamental tool in decision-making problems. With the recent advances in GPU-driven simulation, the ability to collect large amounts of data for RL training has scaled exponentially. However, we show that current RL methods, e.g. PPO, fail to ingest the benefit of parallelized environments beyond a certain point and their performance saturates. To address this, we propose a new on-policy RL algorithm that can effectively leverage large-scale environments by splitting them into chunks and fusing them back together via importance sampling. Our algorithm, termed SAPG, shows significantly higher performance across a variety of challenging environments where vanilla PPO and other strong baselines fail to achieve high performance. Website at https://sapg-rl.github.io/
چکیده به فارسی (ترجمه ماشینی)
علیرغم ناکارآمدی نمونه شدید ، یادگیری تقویت کننده در سیاست ، شیب خط مشی ، به ابزاری اساسی در مشکلات تصمیم گیری تبدیل شده است.با پیشرفت های اخیر در شبیه سازی GPU محور ، امکان جمع آوری مقادیر زیادی از داده ها برای آموزش RL به صورت نمایی کاهش یافته است.با این حال ، ما نشان می دهیم که روشهای فعلی RL ، به عنوان مثالPPO ، نتوانسته است از مزایای محیط های موازی فراتر از یک نقطه خاص و عملکرد آنها اشباع شود.برای پرداختن به این موضوع ، ما یک الگوریتم جدید RL در سیاست را پیشنهاد می کنیم که می تواند با تقسیم آنها به تکه ها و از طریق نمونه گیری اهمیت ، آنها را به طور موثری از محیط های بزرگ استفاده کند.الگوریتم ما با نام SAPG ، عملکرد قابل توجهی بالاتر را در انواع محیط های چالش برانگیز نشان می دهد که در آن وانیل PPO و سایر خطوط قوی در دستیابی به عملکرد بالا ناکام هستند.وب سایت در https://sapg-rl.github.io/
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |




نقد و بررسیها
هنوز بررسیای ثبت نشده است.