| عنوان مقاله به انگلیسی | The Central Role of the Loss Function in Reinforcement Learning | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله نقش مرکزی تابع ضرر در یادگیری تقویتی | ||||||||
| نویسندگان | Kaiwen Wang, Nathan Kallus, Wen Sun | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 21 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Machine Learning,Statistics Theory,یادگیری ماشین , یادگیری ماشین , تئوری آمار , | ||||||||
| توضیحات | Submitted 19 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارسال شده در 19 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
This paper illustrates the central role of loss functions in data-driven decision making, providing a comprehensive survey on their influence in cost-sensitive classification (CSC) and reinforcement learning (RL). We demonstrate how different regression loss functions affect the sample efficiency and adaptivity of value-based decision making algorithms. Across multiple settings, we prove that algorithms using the binary cross-entropy loss achieve first-order bounds scaling with the optimal policy’s cost and are much more efficient than the commonly used squared loss. Moreover, we prove that distributional algorithms using the maximum likelihood loss achieve second-order bounds scaling with the policy variance and are even sharper than first-order bounds. This in particular proves the benefits of distributional RL. We hope that this paper serves as a guide analyzing decision making algorithms with varying loss functions, and can inspire the reader to seek out better loss functions to improve any decision making algorithm.
چکیده به فارسی (ترجمه ماشینی)
این مقاله نقش اصلی عملکردهای از دست دادن در تصمیم گیری داده های محور ، ارائه یک بررسی جامع در مورد تأثیر آنها در طبقه بندی حساس به هزینه (CSC) و یادگیری تقویت (RL) را نشان می دهد.ما نشان می دهیم که چگونه عملکردهای مختلف از دست دادن رگرسیون بر راندمان نمونه و سازگاری الگوریتم های تصمیم گیری مبتنی بر ارزش تأثیر می گذارد.در طول تنظیمات متعدد ، ما ثابت می کنیم که الگوریتم های با استفاده از از دست دادن متقابل آنتروپی باینری ، به مرزهای مرتبه اول با هزینه بهینه سیاست می رسند و بسیار کارآمدتر از ضرر مربع متداول هستند.علاوه بر این ، ما ثابت می کنیم که الگوریتم های توزیع با استفاده از ضرر حداکثر احتمال به دست آوردن مرزهای مرتبه دوم با واریانس سیاست و حتی از مرزهای مرتبه اول واضح تر هستند.این به ویژه مزایای RL توزیع را اثبات می کند.ما امیدواریم که این مقاله به عنوان یک راهنمای تجزیه و تحلیل الگوریتم های تصمیم گیری با عملکردهای مختلف ضرر باشد و می تواند به خواننده الهام بخش باشد تا به دنبال عملکردهای ضرر بهتر برای بهبود هر الگوریتم تصمیم گیری باشد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.