| عنوان مقاله به انگلیسی | Exploratory Optimal Stopping: A Singular Control Formulation | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله توقف بهینه اکتشافی: یک فرمول کنترل منحصر به فرد | ||||||||
| نویسندگان | Jodi Dianetti, Giorgio Ferrari, Renyuan Xu | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 49 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Optimization and Control,Machine Learning,Mathematical Finance,Machine Learning,بهینه سازی و کنترل , یادگیری ماشین , امور مالی ریاضی , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 17 August, 2024; originally announced August 2024. , Comments: 49 pages, 3 figures , MSC Class: 35F21; 49-XX; 68T05; 93E35 | ||||||||
| توضیحات به فارسی | ارسال شده 17 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 49 صفحه ، 3 شکل ، کلاس MSC: 35F21 ؛49-xx ؛68T05 ؛93e35 | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
This paper explores continuous-time and state-space optimal stopping problems from a reinforcement learning perspective. We begin by formulating the stopping problem using randomized stopping times, where the decision maker’s control is represented by the probability of stopping within a given time–specifically, a bounded, non-decreasing, càdlàg control process. To encourage exploration and facilitate learning, we introduce a regularized version of the problem by penalizing it with the cumulative residual entropy of the randomized stopping time. The regularized problem takes the form of an (n+1)-dimensional degenerate singular stochastic control with finite-fuel. We address this through the dynamic programming principle, which enables us to identify the unique optimal exploratory strategy. For the specific case of a real option problem, we derive a semi-explicit solution to the regularized problem, allowing us to assess the impact of entropy regularization and analyze the vanishing entropy limit. Finally, we propose a reinforcement learning algorithm based on policy iteration. We show both policy improvement and policy convergence results for our proposed algorithm.
چکیده به فارسی (ترجمه ماشینی)
در این مقاله به بررسی مشکلات توقف بهینه در زمان و حالت فضا از دیدگاه یادگیری تقویت شده می پردازیم.ما با تدوین مشکل توقف با استفاده از زمان توقف تصادفی شروع می کنیم ، جایی که کنترل تصمیم گیرنده با احتمال توقف در یک زمان معین-به طور خاص ، یک فرآیند کنترل محدود ، غیر کاهش دهنده ، càdlàg نشان داده می شود.برای تشویق اکتشاف و تسهیل یادگیری ، ما با مجازات آن با آنتروپی باقیمانده تجمعی زمان توقف تصادفی ، یک نسخه منظم از مشکل را معرفی می کنیم.مشکل منظم به شکل یک کنترل تصادفی منحصر به فرد (N+1) با سوخت محدود است.ما این موضوع را از طریق اصل برنامه نویسی پویا ، که به ما امکان می دهد استراتژی اکتشافی بهینه منحصر به فرد را شناسایی کنیم.برای مورد خاص یک مشکل گزینه واقعی ، ما یک راه حل نیمه دقیق برای مشکل منظم استخراج می کنیم و به ما امکان می دهد تا تأثیر تنظیم آنتروپی را ارزیابی کرده و حد آنتروپی ناپدید شده را تجزیه و تحلیل کنیم.سرانجام ، ما یک الگوریتم یادگیری تقویت را بر اساس تکرار سیاست پیشنهاد می کنیم.ما هم برای الگوریتم پیشنهادی خود نتایج بهبود سیاست و همگرایی سیاست را نشان می دهیم.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.