ترجمه فارسی مقاله یادگیری تقویتی با تخفیف شبه هذلولی

120,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Reinforcement Learning with Quasi-Hyperbolic Discounting
عنوان مقاله به فارسی	ترجمه فارسی مقاله یادگیری تقویتی با تخفیف شبه هذلولی
نویسندگان	S. R. Eshwar, Mayank Motwani, Nibedita Roy, Gugan Thoppe
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	6
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی ,
توضیحات	Submitted 16 September, 2024; originally announced September 2024.
توضیحات به فارسی	ارائه شده 16 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Reinforcement learning has traditionally been studied with exponential discounting or the average reward setup, mainly due to their mathematical tractability. However, such frameworks fall short of accurately capturing human behavior, which has a bias towards immediate gratification. Quasi-Hyperbolic (QH) discounting is a simple alternative for modeling this bias. Unlike in traditional discounting, though, the optimal QH-policy, starting from some time $t_1,$ can be different to the one starting from $t_2.$ Hence, the future self of an agent, if it is naive or impatient, can deviate from the policy that is optimal at the start, leading to sub-optimal overall returns. To prevent this behavior, an alternative is to work with a policy anchored in a Markov Perfect Equilibrium (MPE). In this work, we propose the first model-free algorithm for finding an MPE. Using a two-timescale analysis, we show that, if our algorithm converges, then the limit must be an MPE. We also validate this claim numerically for the standard inventory system with stochastic demands. Our work significantly advances the practical application of reinforcement learning.

چکیده به فارسی (ترجمه ماشینی)

یادگیری تقویت شده به طور سنتی با تخفیف نمایی یا میانگین تنظیم پاداش مورد مطالعه قرار گرفته است ، عمدتاً به دلیل قابلیت تغییر ریاضی آنها.با این حال ، چنین چارچوبی از دستگیری دقیق رفتار انسان کم می شود ، که نسبت به رضایت فوری تعصب دارد.تخفیف شبه هیپربولیک (QH) یک جایگزین ساده برای مدل سازی این تعصب است.برخلاف تخفیف سنتی ، هرچند ، سیاست بهینه QH ، از مدتی $ t_1 شروع می شود ، $ می تواند با کسی که از $ t_2 شروع می شود متفاوت باشد. از این رو ، آینده خود یک عامل ، اگر ساده لوح یا بی تاب باشد ، می توانداز سیاستی که در ابتدا بهینه است ، منحرف شوید و منجر به بازده کلی زیر بهینه شود.برای جلوگیری از این رفتار ، یک جایگزین این است که با سیاستی که در یک تعادل کامل مارکوف (MPE) لنگر زده است ، کار کنید.در این کار ، ما اولین الگوریتم بدون مدل را برای یافتن MPE پیشنهاد می کنیم.با استفاده از یک تجزیه و تحلیل دو رنگ ، ما نشان می دهیم که اگر الگوریتم ما همگرا شود ، باید حد مجاز MPE باشد.ما همچنین این ادعا را به صورت عددی برای سیستم موجودی استاندارد با تقاضای تصادفی تأیید می کنیم.کار ما به طور قابل توجهی کاربرد عملی یادگیری تقویت را پیشرفت می کند.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله یادگیری تقویتی با تخفیف شبه هذلولی”

ترجمه فارسی مقاله یادگیری تقویتی با تخفیف شبه هذلولی

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله تشخیص گوشه کارآمد حافظه برای سنسورهای دید پویای مبتنی بر رویداد

مقاله محافظت از آثار هنری در برابر انتقال سبک عصبی با استفاده از حمله رنگی خصمانه تطابق پذیر

مقاله یادگیری سیاست های ترکیبی برای MPC با کاربرد پرواز هواپیماهای بدون سرنشین در محیط های دینامیک ناشناخته

مقاله انتخاب پارامتر برای تجزیه و تحلیل مکالمات با اختلال طیف اوتیسم