| عنوان مقاله به انگلیسی | A Geometric Nash Approach in Tuning the Learning Rate in Q-Learning Algorithm |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله یک رویکرد نش هندسی در تنظیم نرخ یادگیری در الگوریتم یادگیری Q |
| نویسندگان | Kwadwo Osei Bonsu |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 12 |
| دسته بندی موضوعات | Machine Learning,Computer Science and Game Theory,Theoretical Economics,Optimization and Control,یادگیری ماشین , علوم کامپیوتر و نظریه بازی , اقتصاد نظری , بهینه سازی و کنترل , |
| توضیحات | Submitted 9 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده در 9 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 480,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
This paper proposes a geometric approach for estimating the $α$ value in Q learning. We establish a systematic framework that optimizes the α parameter, thereby enhancing learning efficiency and stability. Our results show that there is a relationship between the learning rate and the angle between a vector T (total time steps in each episode of learning) and R (the reward vector for each episode). The concept of angular bisector between vectors T and R and Nash Equilibrium provide insight into estimating $α$ such that the algorithm minimizes losses arising from exploration-exploitation trade-off.
چکیده به فارسی (ترجمه ماشینی)
در این مقاله یک رویکرد هندسی برای برآورد ارزش α $ $ در یادگیری Q ارائه شده است.ما یک چارچوب سیستماتیک ایجاد می کنیم که پارامتر α را بهینه می کند ، در نتیجه باعث افزایش کارایی و ثبات یادگیری می شود.نتایج ما نشان می دهد که بین میزان یادگیری و زاویه بین یک بردار t (مراحل کل زمان در هر قسمت از یادگیری) و R (بردار پاداش برای هر قسمت) رابطه ای وجود دارد.مفهوم دوقلو زاویه ای بین بردارهای T و R و تعادل NASH بینشی در مورد تخمین α α $ به گونه ای فراهم می کند که الگوریتم ضررهای ناشی از تجارت اکتشافی را به حداقل می رساند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.