| عنوان مقاله به انگلیسی | Explaining an Agent’s Future Beliefs through Temporally Decomposing Future Reward Estimators | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله توضیح باورهای آینده یک نماینده از طریق تجزیه موقت برآوردگرهای پاداش آینده | ||||||||
| نویسندگان | Mark Towers, Yali Du, Christopher Freeman, Timothy J. Norman | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 12 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Artificial Intelligence,Machine Learning,هوش مصنوعی , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 15 August, 2024; originally announced August 2024. , Comments: 7 pages + 3 pages of supplementary material. Published at ECAI 2024 , Journal ref: ECAI 2024 | ||||||||
| توضیحات به فارسی | ارسال شده در 15 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 7 صفحه + 3 صفحه از مواد تکمیلی.منتشر شده در ECAI 2024 ، مجله Ref: ECAI 2024 | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Future reward estimation is a core component of reinforcement learning agents; i.e., Q-value and state-value functions, predicting an agent’s sum of future rewards. Their scalar output, however, obfuscates when or what individual future rewards an agent may expect to receive. We address this by modifying an agent’s future reward estimator to predict their next N expected rewards, referred to as Temporal Reward Decomposition (TRD). This unlocks novel explanations of agent behaviour. Through TRD we can: estimate when an agent may expect to receive a reward, the value of the reward and the agent’s confidence in receiving it; measure an input feature’s temporal importance to the agent’s action decisions; and predict the influence of different actions on future rewards. Furthermore, we show that DQN agents trained on Atari environments can be efficiently retrained to incorporate TRD with minimal impact on performance.
چکیده به فارسی (ترجمه ماشینی)
برآورد پاداش آینده یک مؤلفه اصلی عوامل یادگیری تقویت است.یعنی عملکردهای ارزش Q و ارزش دولت ، پیش بینی مبلغ یک عامل از پاداش های آینده.با این حال ، خروجی مقیاس آنها ، هنگامی که آینده یا چه پاداش فرد ممکن است یک نماینده را که انتظار می رود دریافت کند ، مبهوت می کند.ما این موضوع را با اصلاح برآوردگر پاداش آینده عامل برای پیش بینی پاداش های بعدی مورد انتظار خود ، که به عنوان تجزیه پاداش زمانی (TRD) گفته می شود ، می پردازیم.این توضیحات جدید در مورد رفتار عامل را باز می کند.از طریق TRD می توانیم: تخمین بزنید که یک عامل ممکن است انتظار داشته باشد پاداش ، ارزش پاداش و اعتماد به نفس نماینده در دریافت آن را دریافت کند.اهمیت زمانی یک ویژگی ورودی را به تصمیمات اقدام عامل اندازه گیری کنید.و تأثیر اقدامات مختلف بر پاداش های آینده را پیش بینی کنید.علاوه بر این ، ما نشان می دهیم که عوامل DQN که در محیط های Atari آموزش دیده اند می توانند به طور مؤثر آموزش ببینند تا TRD را با حداقل تأثیر بر عملکرد ترکیب کنند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.