| عنوان مقاله به انگلیسی | A2SF: Accumulative Attention Scoring with Forgetting Factor for Token Pruning in Transformer Decoder |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله A2SF: امتیازدهی تجمعی توجه با عامل فراموشی برای هرس توکن در رمزگشای ترانسفورماتور |
| نویسندگان | Hyun-rae Jo, Dongkun Shin |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 11 |
| دسته بندی موضوعات | Computation and Language,Machine Learning,محاسبه و زبان , یادگیری ماشین , |
| توضیحات | Submitted 30 July, 2024; v1 submitted 29 July, 2024; originally announced July 2024. , Comments: 11 pages(9 pages + reference 2 pages), 6 figures |
| توضیحات به فارسی | ارسال شده 30 ژوئیه 2024 ؛V1 ارسال شده 29 ژوئیه 2024 ؛در ابتدا ژوئیه 2024 اعلام شد ، نظرات: 11 صفحه (9 صفحه + مرجع 2 صفحه) ، 6 شکل |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 440,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Recently, large language models (LLM) based on transformers are facing memory bottleneck issues due to KV cache, especially in long sequence handling. Previous researches proposed KV cache compression techniques that identify insignificant tokens based on Accumulative Attention Scores and removes their items from KV cache, noting that only few tokens play an important role in attention operations. However, we have observed that the existing Accumulative Attention Score is not suitable for the transformer decoder structure. In the decoder model, the number of times the Attention Score accumulates varies depending on the order of token appearance due to the effect of masking, causing an uneven comparison between tokens. To solve this, we propose Accumulative Attention Score with Forgetting Factor (A2SF) technique, which introduces a Forgetting Factor in the Attention Score accumulation process. A2SF applies a penalty to the past Attention Score generated from old tokens by repeatedly multiplying the Forgetting Factor to the Attention Score over time. Therefore, older tokens receive a larger penalty, providing fairness among different ages of tokens. Through the fair comparison among tokens, we can more effectively select important tokens. We have verified the accuracy improvement through A2SF in the OPT and LLaMA models and A2SF improves the accuracy of LLaMA 2 by up to 7.8% and 5.1% on 1-shot and 0-shot.
چکیده به فارسی (ترجمه ماشینی)
به تازگی ، مدل های بزرگ زبان (LLM) بر اساس ترانسفورماتورها به دلیل حافظه نهان KV ، به ویژه در کار با توالی طولانی ، با مشکلات تنگنای حافظه روبرو هستند.تحقیقات قبلی تکنیک های فشرده سازی حافظه پنهان KV را ارائه می دهد که نشانه های ناچیز را بر اساس نمرات توجه جمع آوری می کند و موارد آنها را از حافظه نهان KV حذف می کند ، و خاطرنشان می کند که تنها تعداد کمی از نشانه ها نقش مهمی در عملیات توجه دارند.با این حال ، ما مشاهده کرده ایم که نمره توجه انباشت موجود برای ساختار رمزگشایی ترانسفورماتور مناسب نیست.در مدل رمزگشایی ، تعداد دفعات جمع شدن نمره توجه بسته به ترتیب ظاهر توکن به دلیل تأثیر ماسک ، متفاوت است و باعث مقایسه ناهموار بین نشانه ها می شود.برای حل این مسئله ، ما با تکنیک فراموشی فاکتور (A2SF) نمره توجه تجمع را پیشنهاد می کنیم ، که یک عامل فراموشی را در فرآیند تجمع نمره توجه معرفی می کند.A2SF با ضرب مکرر ضریب فراموشی به نمره توجه در طول زمان ، یک پنالتی را برای نمره توجه گذشته ناشی از نشانه های قدیمی اعمال می کند.بنابراین ، نشانه های مسن مجازات بیشتری را دریافت می کنند و در سنین مختلف نشانه ها انصاف می کنند.از طریق مقایسه عادلانه بین نشانه ها ، ما می توانیم به طور موثرتری نشانه های مهم را انتخاب کنیم.ما بهبود دقت را از طریق A2SF در مدل های OPT و LLAMA تأیید کرده ایم و A2SF دقت Llama 2 را تا 7.8 ٪ و 5.1 ٪ در 1-shot و 0-shot بهبود می بخشد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.