,

مقاله شکل گیری پاداش عامل اصلی در MDP ها

10.000 تومان

عنوان مقاله به انگلیسی Principal-Agent Reward Shaping in MDPs
عنوان مقاله به فارسی مقاله شکل گیری پاداش عامل اصلی در MDP ها
نویسندگان Omer Ben-Porat, Yishay Mansour, Michal Moshkovitz, Boaz Taitler
زبان مقاله انگلیسی
فرمت مقاله: PDF
تعداد صفحات 31
دسته بندی موضوعات Artificial Intelligence,هوش مصنوعی ,
توضیحات Submitted 30 December, 2023; originally announced January 2024. , Comments: Full version of a paper accepted to AAAI’24
توضیحات به فارسی ارسال 30 دسامبر 2023 ؛در ابتدا ژانویه 2024 اعلام شد ، نظرات: نسخه کامل مقاله ای که به AAAI’24 پذیرفته شده است

چکیده

Principal-agent problems arise when one party acts on behalf of another, leading to conflicts of interest. The economic literature has extensively studied principal-agent problems, and recent work has extended this to more complex scenarios such as Markov Decision Processes (MDPs). In this paper, we further explore this line of research by investigating how reward shaping under budget constraints can improve the principal’s utility. We study a two-player Stackelberg game where the principal and the agent have different reward functions, and the agent chooses an MDP policy for both players. The principal offers an additional reward to the agent, and the agent picks their policy selfishly to maximize their reward, which is the sum of the original and the offered reward. Our results establish the NP-hardness of the problem and offer polynomial approximation algorithms for two classes of instances: Stochastic trees and deterministic decision processes with a finite horizon.

چکیده به فارسی (ترجمه ماشینی)

مشکلات اصلی عامل هنگامی بوجود می آید که یک طرف به نمایندگی از شخص دیگری عمل کند و منجر به تضاد منافع شود.ادبیات اقتصادی به طور گسترده مشکلات اصلی عامل را مورد مطالعه قرار داده است ، و کارهای اخیر این کار را به سناریوهای پیچیده تری مانند فرآیندهای تصمیم گیری مارکوف (MDP) گسترش داده است.در این مقاله ، ما با بررسی چگونگی شکل گیری پاداش تحت محدودیت های بودجه می توانند ابزار اصلی را بهبود بخشند.ما یک بازی دو نفره Stackelberg را مطالعه می کنیم که در آن مدیر و عامل دارای عملکردهای مختلف پاداش هستند و نماینده یک سیاست MDP را برای هر دو بازیکن انتخاب می کند.اصلی پاداش اضافی را به نماینده ارائه می دهد ، و نماینده سیاست خود را برای خودخواهانه انتخاب می کند تا پاداش خود را به حداکثر برساند ، که این مبلغ اصلی و پاداش ارائه شده است.نتایج ما سخت بودن NP را از این مسئله تعیین می کند و الگوریتم های تقریب چند جمله ای را برای دو طبقه از موارد ارائه می دهد: درختان تصادفی و فرآیندهای تصمیم گیری قطعی با افق محدود.

توجه کنید این مقاله به زبان انگلیسی است.
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:

09395106248

توجه کنید که شرایط ترجمه به صورت زیر است:
  • قیمت هر صفحه ترجمه در حال حاضر 40 هزار تومان می باشد.
  • تحویل مقاله ترجمه شده به صورت فایل ورد می باشد.
  • زمان تحویل ترجمه مقاله در صورت داشتن تعداد صفحات عادی بین 3 تا 5 روز خواهد بود.
  • کیفیت ترجمه بسیار بالا می باشد. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
  • کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “مقاله شکل گیری پاداش عامل اصلی در MDP ها”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا