,

مقاله فرآیند تصمیم گیری مارکوف حساس به ریسک و یادگیری تحت توابع عمومی سودمند

10,000 تومان

عنوان مقاله به انگلیسی Risk-sensitive Markov Decision Process and Learning under General Utility Functions
عنوان مقاله به فارسی مقاله فرایند تصمیم گیری مارکوف حساس به ریسک و یادگیری تحت توابع عمومی سودمند
نویسندگان Zhengqi Wu, Renyuan Xu
زبان مقاله انگلیسی
فرمت مقاله: PDF
تعداد صفحات 0
دسته بندی موضوعات Machine Learning,Optimization and Control,یادگیری ماشین , بهینه سازی و کنترل ,
توضیحات Submitted 22 November, 2023; originally announced November 2023. , Comments: 36 pages
توضیحات به فارسی ارسال شده 22 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد ، نظرات: 36 صفحه

چکیده

Reinforcement Learning (RL) has gained substantial attention across diverse application domains and theoretical investigations. Existing literature on RL theory largely focuses on risk-neutral settings where the decision-maker learns to maximize the expected cumulative reward. However, in practical scenarios such as portfolio management and e-commerce recommendations, decision-makers often persist in heterogeneous risk preferences subject to outcome uncertainties, which can not be well-captured by the risk-neural framework. Incorporating these preferences can be approached through utility theory, yet the development of risk-sensitive RL under general utility functions remains an open question for theoretical exploration. In this paper, we consider a scenario where the decision-maker seeks to optimize a general utility function of the cumulative reward in the framework of a Markov decision process (MDP). To facilitate the Dynamic Programming Principle and Bellman equation, we enlarge the state space with an additional dimension that accounts for the cumulative reward. We propose a discretized approximation scheme to the MDP under enlarged state space, which is tractable and key for algorithmic design. We then propose a modified value iteration algorithm that employs an epsilon-covering over the space of cumulative reward. When a simulator is accessible, our algorithm efficiently learns a near-optimal policy with guaranteed sample complexity. In the absence of a simulator, our algorithm, designed with an upper-confidence-bound exploration approach, identifies a near-optimal policy while ensuring a guaranteed regret bound. For both algorithms, we match the theoretical lower bounds for the risk-neutral setting.

چکیده به فارسی (ترجمه ماشینی)

یادگیری تقویت کننده (RL) در حوزه های کاربردی متنوع و تحقیقات نظری مورد توجه قابل توجهی قرار گرفته است.ادبیات موجود در مورد تئوری RL تا حد زیادی بر تنظیمات بی طرف ریسک متمرکز است که در آن تصمیم گیرنده یاد می گیرد که پاداش تجمعی مورد انتظار را به حداکثر برساند.با این حال ، در سناریوهای عملی مانند مدیریت نمونه کارها و توصیه های تجارت الکترونیکی ، تصمیم گیرندگان غالباً در ترجیحات ریسک ناهمگن منوط به عدم قطعیت های نتیجه باقی می مانند ، که نمی تواند با چارچوب خطرناک خطرناک باشد.ترکیب این ترجیحات را می توان از طریق تئوری ابزار به دست آورد ، اما توسعه RL حساس به ریسک تحت توابع کلی ابزار ، همچنان یک سؤال باز برای اکتشاف نظری است.در این مقاله ، ما یک سناریو را در نظر می گیریم که در آن تصمیم گیرنده به دنبال بهینه سازی یک عملکرد کلی از پاداش تجمعی در چارچوب یک فرآیند تصمیم گیری مارکوف (MDP) است.برای تسهیل اصل برنامه نویسی پویا و معادله بلمن ، فضای دولت را با ابعادی اضافی بزرگ می کنیم که پاداش تجمعی را به خود اختصاص می دهد.ما یک طرح تقریب گسسته شده به MDP را در فضای حالت بزرگ شده پیشنهاد می کنیم ، که برای طراحی الگوریتمی قابل ردیابی و کلید است.سپس ما یک الگوریتم تکرار ارزش اصلاح شده را پیشنهاد می کنیم که از پوشش اپسیلون در فضای پاداش تجمعی استفاده می کند.هنگامی که یک شبیه ساز در دسترس است ، الگوریتم ما به طور مؤثر یک سیاست تقریباً بهینه را با پیچیدگی نمونه تضمین شده می آموزد.در صورت عدم وجود یک شبیه ساز ، الگوریتم ما ، که با یک رویکرد اکتشافی محدود به اعتماد به نفس طراحی شده است ، ضمن تضمین پشیمانی تضمین شده ، یک سیاست تقریباً بهینه را مشخص می کند.برای هر دو الگوریتم ، ما با مرزهای پایین نظری برای تنظیم بی طرف خطر مطابقت داریم.

توجه کنید این مقاله به زبان انگلیسی است.
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:

09395106248

توجه کنید که شرایط ترجمه به صورت زیر است:
  • قیمت هر صفحه ترجمه در حال حاضر 40 هزار تومان می باشد.
  • تحویل مقاله ترجمه شده به صورت فایل ورد می باشد.
  • زمان تحویل ترجمه مقاله در صورت داشتن تعداد صفحات عادی بین 3 تا 5 روز خواهد بود.
  • کیفیت ترجمه بسیار بالا می باشد. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
  • کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “مقاله فرآیند تصمیم گیری مارکوف حساس به ریسک و یادگیری تحت توابع عمومی سودمند”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا