| عنوان مقاله به انگلیسی | Palu: Compressing KV-Cache with Low-Rank Projection |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله پالو: فشردهسازی KV-Cache با تصویرسازی رتبه پایین |
| نویسندگان | Chi-Chih Chang, Wei-Cheng Lin, Chien-Yu Lin, Chong-Yan Chen, Yu-Fang Hu, Pei-Shuo Wang, Ning-Chi Huang, Luis Ceze, Kai-Chiang Wu |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 17 |
| دسته بندی موضوعات | Artificial Intelligence,Machine Learning,هوش مصنوعی , یادگیری ماشین , |
| توضیحات | Submitted 30 July, 2024; originally announced July 2024. |
| توضیحات به فارسی | ارسال شده 30 ژوئیه 2024 ؛در ابتدا ژوئیه 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 680,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
KV-Cache compression methods generally sample a KV-Cache of effectual tokens or quantize it into lower bits. However, these methods cannot exploit the redundancy of the hidden dimension of KV tensors. This paper investigates a unique hidden dimension approach called Palu, a novel KV-Cache compression framework that utilizes low-rank projection. Palu decomposes the linear layers into low-rank matrices, caches the smaller intermediate states, and reconstructs the full keys and values on the fly. To improve accuracy, compression rate, and efficiency, Palu further encompasses (1) a medium-grained low-rank decomposition scheme, (2) an efficient rank search algorithm, (3) a low-rank-aware quantization algorithm, and (4) matrix fusion with optimized GPU kernels. Our extensive experiments with popular LLMs show that Palu can compress KV-Cache by more than 91.25% while maintaining a significantly better accuracy (up to 1.19 lower perplexity) than state-of-the-art KV-Cache quantization methods at a similar or even higher memory usage. When compressing KV-Cache for 50%, Palu delivers up to 1.61x end-to-end speedup for the attention module. Our code is publicly available at https://github.com/shadowpa0327/Palu.
چکیده به فارسی (ترجمه ماشینی)
روشهای فشرده سازی KV-Cache به طور کلی نمونه ای از مخزن KV از نشانه های مؤثر را نمونه می گیرند یا آن را به قسمتهای پایین تر می اندازند.با این حال ، این روش ها نمی توانند از افزونگی بعد پنهان تانسرهای KV سوء استفاده کنند.در این مقاله یک رویکرد ابعاد منحصر به فرد به نام PALU ، یک چارچوب فشرده سازی KV-Cache جدید که از طرح ریزی پایین استفاده می کند ، بررسی شده است.PALU لایه های خطی را به ماتریس های درجه پایین تجزیه می کند ، حالت های واسطه ای کوچکتر را ذخیره می کند و کلیدها و مقادیر کامل را در پرواز بازسازی می کند.برای بهبود دقت ، میزان فشرده سازی و کارآیی ، PALU بیشتر شامل (1) یک طرح تجزیه درجه پایین دانه متوسط ، (2) یک الگوریتم جستجوی رتبه کارآمد ، (3) یک الگوریتم کمیت کمیت آگاه و کم درجه) همجوشی ماتریس با هسته های GPU بهینه شده.آزمایش های گسترده ما با LLM های محبوب نشان می دهد که PALU می تواند در حالی که دقت قابل توجهی بهتر (حداکثر 1.19 دفع پایین تر) را نسبت به روشهای کمترین کیفیت KV-Cache در یک نوع اندازه گیری KV-Cache با بیش از 91.25 ٪ فشرده می کند ، در یک نوع قابل توجه بهتر (حداکثر 1.19 دفع پایین تر) (حداکثر 1.19 دفع پایین تر) (حداکثر 1.19 دفاعی پایین تر) (حداکثر 1.19) نسبت به روش های مشابه یا حتی بهتر باشد.استفاده از حافظه بالاترهنگام فشرده سازی KV-Cache به مدت 50 ٪ ، PALU برای ماژول توجه حداکثر 1.61x سرعت پایان به پایان را ارائه می دهد.کد ما به صورت عمومی در https://github.com/shadowpa0327/palu در دسترس است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.