| عنوان مقاله به انگلیسی | ProSpec RL: Plan Ahead, then Execute |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله Prospec rl: از قبل برنامهریزی کنید، سپس اجرا کنید |
| نویسندگان | Liangliang Liu, Yi Guan, BoRan Wang, Rujia Shen, Yi Lin, Chaoran Kong, Lian Yan, Jingchi Jiang |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 12 |
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,Information Retrieval,یادگیری ماشین , هوش مصنوعی , بازیابی اطلاعات , |
| توضیحات | Submitted 31 July, 2024; originally announced July 2024. |
| توضیحات به فارسی | ارسال 31 ژوئیه 2024 ؛در ابتدا ژوئیه 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 480,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Imagining potential outcomes of actions before execution helps agents make more informed decisions, a prospective thinking ability fundamental to human cognition. However, mainstream model-free Reinforcement Learning (RL) methods lack the ability to proactively envision future scenarios, plan, and guide strategies. These methods typically rely on trial and error to adjust policy functions, aiming to maximize cumulative rewards or long-term value, even if such high-reward decisions place the environment in extremely dangerous states. To address this, we propose the Prospective (ProSpec) RL method, which makes higher-value, lower-risk optimal decisions by imagining future n-stream trajectories. Specifically, ProSpec employs a dynamic model to predict future states (termed “imagined states”) based on the current state and a series of sampled actions. Furthermore, we integrate the concept of Model Predictive Control and introduce a cycle consistency constraint that allows the agent to evaluate and select the optimal actions from these trajectories. Moreover, ProSpec employs cycle consistency to mitigate two fundamental issues in RL: augmenting state reversibility to avoid irreversible events (low risk) and augmenting actions to generate numerous virtual trajectories, thereby improving data efficiency. We validated the effectiveness of our method on the DMControl benchmarks, where our approach achieved significant performance improvements. Code will be open-sourced upon acceptance.
چکیده به فارسی (ترجمه ماشینی)
تصور نتایج احتمالی اقدامات قبل از اجرای ، به نمایندگان کمک می کند تا تصمیمات آگاهانه تری بگیرند ، یک توانایی تفکر آینده نگر برای شناخت انسان.با این حال ، روشهای یادگیری تقویت کننده بدون مدل (RL) از توانایی پیش بینی پیش بینی پیش بینی سناریوهای آینده ، برنامه ریزی و استراتژی های راهنما برخوردار نیست.این روشها به طور معمول برای تنظیم کارکردهای خط مشی به آزمایش و خطا متکی هستند ، با هدف به حداکثر رساندن پاداش های تجمعی یا ارزش بلند مدت ، حتی اگر چنین تصمیمات پر رویه محیط را در حالت های بسیار خطرناک قرار دهد.برای پرداختن به این موضوع ، ما روش آینده نگر (Prospec) RL را پیشنهاد می کنیم ، که با تصور مسیرهای آینده N جریان ، تصمیمات بهینه با کمتری در معرض خطر را ایجاد می کند.به طور خاص ، Prospec از یک مدل پویا برای پیش بینی حالتهای آینده (“حالتهای تصور شده”) بر اساس وضعیت فعلی و یک سری اقدامات نمونه برداری استفاده می کند.علاوه بر این ، ما مفهوم کنترل پیش بینی مدل را یکپارچه می کنیم و یک محدودیت قوام چرخه را معرفی می کنیم که به عامل اجازه می دهد تا اقدامات بهینه را از این مسیرها ارزیابی و انتخاب کند.علاوه بر این ، Prospec از قوام چرخه برای کاهش دو موضوع اساسی در RL استفاده می کند: افزایش برگشت پذیری حالت برای جلوگیری از وقایع برگشت ناپذیر (کم خطر) و تقویت اقدامات برای ایجاد مسیرهای مجازی متعدد ، در نتیجه باعث افزایش کارایی داده ها می شود.ما اثربخشی روش خود را در معیارهای DMControl تأیید کردیم ، جایی که رویکرد ما به پیشرفت های قابل توجهی در عملکرد رسیده است.کد پس از پذیرش منبع باز خواهد شد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.