| عنوان مقاله به انگلیسی | A Policy-Gradient Approach to Solving Imperfect-Information Games with Iterate Convergence |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله یک رویکرد گرادیان سیاستی برای حل بازیهای اطلاعات ناقص با همگرایی تکراری |
| نویسندگان | Mingyang Liu, Gabriele Farina, Asuman Ozdaglar |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 43 |
| دسته بندی موضوعات | Computer Science and Game Theory,Artificial Intelligence,Machine Learning,Machine Learning,علوم کامپیوتر و نظریه بازی , هوش مصنوعی , یادگیری ماشین , یادگیری ماشین , |
| توضیحات | Submitted 1 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده در 1 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 1,720,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Policy gradient methods have become a staple of any single-agent reinforcement learning toolbox, due to their combination of desirable properties: iterate convergence, efficient use of stochastic trajectory feedback, and theoretically-sound avoidance of importance sampling corrections. In multi-agent imperfect-information settings (extensive-form games), however, it is still unknown whether the same desiderata can be guaranteed while retaining theoretical guarantees. Instead, sound methods for extensive-form games rely on approximating counterfactual values (as opposed to Q values), which are incompatible with policy gradient methodologies. In this paper, we investigate whether policy gradient can be safely used in two-player zero-sum imperfect-information extensive-form games (EFGs). We establish positive results, showing for the first time that a policy gradient method leads to provable best-iterate convergence to a regularized Nash equilibrium in self-play.
چکیده به فارسی (ترجمه ماشینی)
روشهای شیب خط مشی به دلیل ترکیب آنها از خصوصیات مطلوب ، به یکی از اصلی ترین جعبه های ابزار یادگیری تقویت کننده تبدیل شده است: همگرایی تکرار ، استفاده کارآمد از بازخورد مسیر تصادفی و اجتناب از نظر نظری از اصلاحات نمونه گیری اهمیت.در تنظیمات ناقص چند عامل (بازی های گسترده) ، با این حال ، هنوز مشخص نیست که آیا می توان همان Desiderata را ضمن حفظ ضمانت های نظری تضمین کرد.در عوض ، روشهای صوتی برای بازی های گسترده به تقریب مقادیر ضد خلاف (بر خلاف مقادیر Q) متکی هستند ، که با روشهای شیب سیاست ناسازگار هستند.در این مقاله ، ما بررسی می کنیم که آیا شیب سیاست می تواند با خیال راحت در بازی های گسترده ای از ناقص و ناقص با فرم های گسترده (EFGS) با خیال راحت استفاده شود.ما نتایج مثبتی را ایجاد می کنیم ، برای اولین بار نشان می دهیم که یک روش شیب سیاست منجر به همگرایی بهترین سواد به یک تعادل Nash منظم در بازی خود می شود.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.