| عنوان مقاله به انگلیسی | Neural Reward Machines | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله دستگاه های پاداش عصبی | ||||||||
| نویسندگان | Elena Umili, Francesco Argenziano, Roberto Capobianco | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 13 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی , | ||||||||
| توضیحات | Submitted 16 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | ارائه شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Non-markovian Reinforcement Learning (RL) tasks are very hard to solve, because agents must consider the entire history of state-action pairs to act rationally in the environment. Most works use symbolic formalisms (as Linear Temporal Logic or automata) to specify the temporally-extended task. These approaches only work in finite and discrete state environments or continuous problems for which a mapping between the raw state and a symbolic interpretation is known as a symbol grounding (SG) function. Here, we define Neural Reward Machines (NRM), an automata-based neurosymbolic framework that can be used for both reasoning and learning in non-symbolic non-markovian RL domains, which is based on the probabilistic relaxation of Moore Machines. We combine RL with semisupervised symbol grounding (SSSG) and we show that NRMs can exploit high-level symbolic knowledge in non-symbolic environments without any knowledge of the SG function, outperforming Deep RL methods which cannot incorporate prior knowledge. Moreover, we advance the research in SSSG, proposing an algorithm for analysing the groundability of temporal specifications, which is more efficient than baseline techniques of a factor $10^3$.
چکیده به فارسی (ترجمه ماشینی)
وظایف یادگیری تقویت کننده غیر مارکووی (RL) بسیار دشوار است ، زیرا مأمورین باید کل تاریخ جفت های دولتی را در نظر بگیرند تا به طور عقلانی در محیط عمل کنند.بیشتر آثار از فرمالیسم های نمادین (به عنوان منطق زمانی خطی یا اتومات) برای مشخص کردن کار موقتی استفاده می کنند.این رویکردها فقط در محیط های حالت محدود و گسسته یا مشکلات مداوم کار می کنند که نقشه برداری بین حالت خام و یک تفسیر نمادین به عنوان یک عملکرد سمبل (SG) شناخته می شود.در اینجا ، ما دستگاه های پاداش عصبی (NRM) ، یک چارچوب عصبی مبتنی بر اتوماتیک را تعریف می کنیم که می تواند برای استدلال و یادگیری در حوزه های غیررباد غیر مارکووی RL ، که مبتنی بر آرامش احتمالی دستگاه های مور است ، استفاده شود.ما RL را با پایه و اساس نماد نیمه قابل کنترل (SSSG) ترکیب می کنیم و نشان می دهیم که NRM ها می توانند از دانش نمادین سطح بالا در محیط های غیر سمبولیک و بدون هیچ گونه آگاهی از عملکرد SG سوء استفاده کنند ، از روشهای عمیق RL که نمی توانند دانش قبلی را در بر بگیرند ، استفاده کنند.علاوه بر این ، ما تحقیقات را در SSSG پیش می بریم ، و الگوریتمی را برای تجزیه و تحلیل زمینه سازی مشخصات زمانی ارائه می دهیم ، که از تکنیک های پایه یک عامل 10^3 $ کارآمدتر است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.