ترجمه فارسی مقاله توضیح باورهای آینده یک نماینده از طریق تجزیه موقت برآوردگرهای پاداش آینده

480,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Explaining an Agent’s Future Beliefs through Temporally Decomposing Future Reward Estimators
عنوان مقاله به فارسی	ترجمه فارسی مقاله توضیح باورهای آینده یک نماینده از طریق تجزیه موقت برآوردگرهای پاداش آینده
نویسندگان	Mark Towers, Yali Du, Christopher Freeman, Timothy J. Norman
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	12
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Artificial Intelligence,Machine Learning,هوش مصنوعی , یادگیری ماشین ,
توضیحات	Submitted 15 August, 2024; originally announced August 2024. , Comments: 7 pages + 3 pages of supplementary material. Published at ECAI 2024 , Journal ref: ECAI 2024
توضیحات به فارسی	ارسال شده در 15 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 7 صفحه + 3 صفحه از مواد تکمیلی.منتشر شده در ECAI 2024 ، مجله Ref: ECAI 2024
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Future reward estimation is a core component of reinforcement learning agents; i.e., Q-value and state-value functions, predicting an agent’s sum of future rewards. Their scalar output, however, obfuscates when or what individual future rewards an agent may expect to receive. We address this by modifying an agent’s future reward estimator to predict their next N expected rewards, referred to as Temporal Reward Decomposition (TRD). This unlocks novel explanations of agent behaviour. Through TRD we can: estimate when an agent may expect to receive a reward, the value of the reward and the agent’s confidence in receiving it; measure an input feature’s temporal importance to the agent’s action decisions; and predict the influence of different actions on future rewards. Furthermore, we show that DQN agents trained on Atari environments can be efficiently retrained to incorporate TRD with minimal impact on performance.

چکیده به فارسی (ترجمه ماشینی)

برآورد پاداش آینده یک مؤلفه اصلی عوامل یادگیری تقویت است.یعنی عملکردهای ارزش Q و ارزش دولت ، پیش بینی مبلغ یک عامل از پاداش های آینده.با این حال ، خروجی مقیاس آنها ، هنگامی که آینده یا چه پاداش فرد ممکن است یک نماینده را که انتظار می رود دریافت کند ، مبهوت می کند.ما این موضوع را با اصلاح برآوردگر پاداش آینده عامل برای پیش بینی پاداش های بعدی مورد انتظار خود ، که به عنوان تجزیه پاداش زمانی (TRD) گفته می شود ، می پردازیم.این توضیحات جدید در مورد رفتار عامل را باز می کند.از طریق TRD می توانیم: تخمین بزنید که یک عامل ممکن است انتظار داشته باشد پاداش ، ارزش پاداش و اعتماد به نفس نماینده در دریافت آن را دریافت کند.اهمیت زمانی یک ویژگی ورودی را به تصمیمات اقدام عامل اندازه گیری کنید.و تأثیر اقدامات مختلف بر پاداش های آینده را پیش بینی کنید.علاوه بر این ، ما نشان می دهیم که عوامل DQN که در محیط های Atari آموزش دیده اند می توانند به طور مؤثر آموزش ببینند تا TRD را با حداقل تأثیر بر عملکرد ترکیب کنند.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله توضیح باورهای آینده یک نماینده از طریق تجزیه موقت برآوردگرهای پاداش آینده”

ترجمه فارسی مقاله توضیح باورهای آینده یک نماینده از طریق تجزیه موقت برآوردگرهای پاداش آینده

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله تقسیم‌بندی خودکار سه بعدی اولتراسوند چندوجهی جفت انسان با استفاده از استراتژی‌های فیوژن و یادگیری عمیق

مقاله تشخیص گسل سیستم قدرت با محاسبات کوانتومی و تجزیه دروازه کارآمد

مقاله انتخاب پارامتر برای تجزیه و تحلیل مکالمات با اختلال طیف اوتیسم

مقاله کنترل جهت پرتو مشترک و تخصیص منابع رادیویی در شبکه های ماهواره ای چند پرتویی LEO پویا