| عنوان مقاله به انگلیسی | Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله مدلهای زبانی از پیش آموزشدیده، توانایی تصمیمگیری سریع و کمهزینهی تبدیلکنندهی تصمیمگیری را بهبود میبخشند |
| نویسندگان | Yu Yang, Pan Xu |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 15 |
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,Computation and Language,یادگیری ماشین , هوش مصنوعی , محاسبات و زبان , |
| توضیحات | Submitted 2 August, 2024; originally announced August 2024. , Comments: 2 figures, 8 tables. Accepted by the Training Agents with Foundation Models Workshop at RLC 2024 |
| توضیحات به فارسی | ارسال شده در 2 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: 2 شکل ، 8 جدول.پذیرفته شده توسط نمایندگان آموزش با کارگاه مدلهای بنیاد در RLC 2024 |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 600,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Decision Transformer (DT) has emerged as a promising class of algorithms in offline reinforcement learning (RL) tasks, leveraging pre-collected datasets and Transformer’s capability to model long sequences. Recent works have demonstrated that using parts of trajectories from training tasks as prompts in DT enhances its performance on unseen tasks, giving rise to Prompt-DT methods. However, collecting data from specific environments can be both costly and unsafe in many scenarios, leading to suboptimal performance and limited few-shot prompt abilities due to the data-hungry nature of Transformer-based models. Additionally, the limited datasets used in pre-training make it challenging for Prompt-DT type of methods to distinguish between various RL tasks through prompts alone. To address these challenges, we introduce the Language model-initialized Prompt Decision Transformer (LPDT), which leverages pre-trained language models for meta-RL tasks and fine-tunes the model using Low-rank Adaptation (LoRA). We further incorporate prompt regularization to effectively differentiate between tasks based on prompt feature representations. Our approach integrates pre-trained language model and RL tasks seamlessly. Extensive empirical studies demonstrate that initializing with a pre-trained language model significantly enhances the performance of Prompt-DT on unseen tasks compared to baseline methods.
چکیده به فارسی (ترجمه ماشینی)
ترانسفورماتور تصمیم گیری (DT) به عنوان یک کلاس امیدوار کننده از الگوریتم ها در کارهای یادگیری تقویت آفلاین (RL) ظاهر شده است ، و با استفاده از مجموعه داده های از پیش جمع آوری شده و توانایی ترانسفورماتور برای مدل سازی توالی های طولانی.آثار اخیر نشان داده اند که استفاده از بخش هایی از مسیرها از کارهای آموزشی به عنوان پیشبرد در DT ، عملکرد آن را در کارهای غیب افزایش می دهد و باعث ایجاد روش های سریع DT می شود.با این حال ، جمع آوری داده ها از محیط های خاص می تواند در بسیاری از سناریوها هم پرهزینه و هم ناامن باشد ، که منجر به عملکرد زیر حداقلی و محدودیت های سریع شات به دلیل ماهیت داده گرسنه مدلهای مبتنی بر ترانسفورماتور می شود.علاوه بر این ، مجموعه داده های محدود مورد استفاده در پیش از این ، باعث می شود که نوع روشهای سریع DT برای تمایز بین کارهای مختلف RL از طریق Prompts به تنهایی چالش برانگیز باشد.برای پرداختن به این چالش ها ، ما ترانسفورماتور تصمیم گیری سریع مدل زبان (LPDT) را معرفی می کنیم ، که مدل های زبان از پیش آموزش داده شده را برای کارهای META-RL و تنظیم دقیق مدل با استفاده از سازگاری با درجه پایین (LORA) اعمال می کند.ما در ادامه ، تنظیم مجدد سریع را برای تمایز مؤثر بین وظایف بر اساس بازنمایی ویژگی های سریع درج می کنیم.رویکرد ما یکپارچه مدل زبان از قبل آموزش دیده و وظایف RL یکپارچه است.مطالعات تجربی گسترده نشان می دهد که اولیه سازی با یک مدل زبان از پیش آموزش دیده ، عملکرد سریع DT را در کارهای غیب نسبت به روشهای پایه افزایش می دهد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.