ترجمه فارسی مقاله بازبینی معضل اکتشاف- بهره برداری: دیدگاه آنتروپی

300,000 تومان

عنوان مقاله به انگلیسی The Exploration-Exploitation Dilemma Revisited: An Entropy Perspective
عنوان مقاله به فارسی ترجمه فارسی مقاله بازبینی معضل اکتشاف- بهره برداری: دیدگاه آنتروپی
نویسندگان Renye Yan, Yaozhong Gan, You Wu, Ling Liang, Junliang Xing, Yimao Cai, Ru Huang
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 15
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,یادگیری ماشین ,
توضیحات Submitted 19 August, 2024; originally announced August 2024.
توضیحات به فارسی ارسال شده در 19 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

The imbalance of exploration and exploitation has long been a significant challenge in reinforcement learning. In policy optimization, excessive reliance on exploration reduces learning efficiency, while over-dependence on exploitation might trap agents in local optima. This paper revisits the exploration-exploitation dilemma from the perspective of entropy by revealing the relationship between entropy and the dynamic adaptive process of exploration and exploitation. Based on this theoretical insight, we establish an end-to-end adaptive framework called AdaZero, which automatically determines whether to explore or to exploit as well as their balance of strength. Experiments show that AdaZero significantly outperforms baseline models across various Atari and MuJoCo environments with only a single setting. Especially in the challenging environment of Montezuma, AdaZero boosts the final returns by up to fifteen times. Moreover, we conduct a series of visualization analyses to reveal the dynamics of our self-adaptive mechanism, demonstrating how entropy reflects and changes with respect to the agent’s performance and adaptive process.

چکیده به فارسی (ترجمه ماشینی)

عدم تعادل اکتشاف و استثمار مدتهاست که یک چالش مهم در یادگیری تقویت بوده است.در بهینه سازی سیاست ، اعتماد بیش از حد به اکتشاف باعث کاهش کارایی یادگیری می شود ، در حالی که وابستگی بیش از حد به بهره برداری ممکن است عوامل را در Optima محلی به دام بیندازد.در این مقاله با آشکار کردن رابطه بین آنتروپی و روند تطبیقی ​​پویا اکتشاف و بهره برداری ، معضل اکتشاف و بهره برداری از منظر آنتروپی را مورد بازبینی قرار می دهد.بر اساس این بینش نظری ، ما یک چارچوب تطبیقی ​​پایان به پایان به نام Adazero ایجاد می کنیم که به طور خودکار تعیین می کند که آیا باید کشف یا بهره برداری و همچنین تعادل قدرت آنها را کشف کند.آزمایشات نشان می دهد که Adazero به طور قابل توجهی از مدل های پایه در محیط های مختلف Atari و Mujoco با تنها یک تنظیم واحد بهتر عمل می کند.به خصوص در محیط چالش برانگیز مونتزوما ، آدازرو بازده نهایی را تا پانزده بار افزایش می دهد.علاوه بر این ، ما یک سری از تجزیه و تحلیل تجسم را انجام می دهیم تا پویایی مکانیسم خود سازگار خود را آشکار کنیم ، نشان می دهیم که چگونه آنتروپی با توجه به عملکرد و روند تطبیقی ​​عامل بازتاب و تغییر می کند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله بازبینی معضل اکتشاف- بهره برداری: دیدگاه آنتروپی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا