,

ترجمه فارسی مقاله تخصیص اعتبار با جداسازی پاداش جزئی در بهینه‌سازی سیاست مجاورتی چندعاملی

19,000 تومان800,000 تومان

شناسه محصول: نامعلوم دسته: ,
عنوان مقاله به انگلیسی Assigning Credit with Partial Reward Decoupling in Multi-Agent Proximal Policy Optimization
عنوان مقاله به فارسی ترجمه فارسی مقاله تخصیص اعتبار با جداسازی پاداش جزئی در بهینه‌سازی سیاست مجاورتی چندعاملی
نویسندگان Aditya Kapoor, Benjamin Freed, Howie Choset, Jeff Schneider
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 20
دسته بندی موضوعات Multiagent Systems,Artificial Intelligence,Machine Learning,Robotics,سیستم های چند منظوره , هوش مصنوعی , یادگیری ماشین , روباتیک ,
توضیحات Submitted 8 August, 2024; originally announced August 2024. , Comments: 20 pages, 5 figures, 12 tables, Reinforcement Learning Journal and Reinforcement Learning Conference 2024
توضیحات به فارسی ارسال شده در 8 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 20 صفحه ، 5 شکل ، 12 جدول ، مجله یادگیری تقویت و کنفرانس یادگیری تقویت شده 2024

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 800,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Multi-agent proximal policy optimization (MAPPO) has recently demonstrated state-of-the-art performance on challenging multi-agent reinforcement learning tasks. However, MAPPO still struggles with the credit assignment problem, wherein the sheer difficulty in ascribing credit to individual agents’ actions scales poorly with team size. In this paper, we propose a multi-agent reinforcement learning algorithm that adapts recent developments in credit assignment to improve upon MAPPO. Our approach leverages partial reward decoupling (PRD), which uses a learned attention mechanism to estimate which of a particular agent’s teammates are relevant to its learning updates. We use this estimate to dynamically decompose large groups of agents into smaller, more manageable subgroups. We empirically demonstrate that our approach, PRD-MAPPO, decouples agents from teammates that do not influence their expected future reward, thereby streamlining credit assignment. We additionally show that PRD-MAPPO yields significantly higher data efficiency and asymptotic performance compared to both MAPPO and other state-of-the-art methods across several multi-agent tasks, including StarCraft II. Finally, we propose a version of PRD-MAPPO that is applicable to textit{shared} reward settings, where PRD was previously not applicable, and empirically show that this also leads to performance improvements over MAPPO.

چکیده به فارسی (ترجمه ماشینی)

بهینه سازی سیاست پروگزیمال چند عامل (MAPPO) اخیراً عملکرد پیشرفته ای را در مورد کارهای یادگیری تقویت کننده چند عامل به چالش کشیده است.با این حال ، ماپو هنوز هم با مشکل واگذاری اعتباری تلاش می کند ، که در آن دشواری شدید در تعیین اعتبار به اقدامات عوامل فردی با اندازه تیم ضعیف است.در این مقاله ، ما یک الگوریتم یادگیری تقویت کننده چند عامل را پیشنهاد می کنیم که تحولات اخیر در تکالیف اعتباری را برای بهبود در ماپو تطبیق می دهد.رویکرد ما از بین بردن پاداش جزئی (PRD) استفاده می کند ، که از یک مکانیسم توجه آموخته شده برای تخمین اینکه کدام یک از هم تیمی های یک عامل خاص مربوط به به روزرسانی های یادگیری آن هستند ، استفاده می کند.ما از این تخمین برای تجزیه پویا گروه های بزرگی از عوامل در زیر گروه های کوچکتر و قابل کنترل تر استفاده می کنیم.ما از نظر تجربی نشان می دهیم که رویکرد ما ، PRD-Mappo ، نمایندگان هم تیمی ها را که بر پاداش آینده مورد انتظار آنها تأثیر نمی گذارد ، جدا می کند و از این طریق تکلیف اعتباری را ساده تر می کند.علاوه بر این ، ما نشان می دهیم که PRD-MAPPO بازده داده های قابل توجهی بالاتر و عملکرد بدون علامت در مقایسه با MAPPO و سایر روش های پیشرفته در چندین کار چند عامل ، از جمله StarCraft II است.سرانجام ، ما نسخه ای از PRD-MAPPO را پیشنهاد می کنیم که برای تنظیمات پاداش textit {مشترک قابل استفاده باشد ، جایی که PRD قبلاً قابل استفاده نبود ، و به صورت تجربی نشان می دهد که این امر منجر به بهبود عملکرد نسبت به ماپو می شود.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, سفارش ترجمه فارسی مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله تخصیص اعتبار با جداسازی پاداش جزئی در بهینه‌سازی سیاست مجاورتی چندعاملی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا