| عنوان مقاله به انگلیسی | CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله CSKV: کوچک شدن کانال کارآمد آموزشی برای حافظه پنهان KV در سناریوهای با زمینه طولانی | ||||||||
| نویسندگان | Luning Wang, Shiyao Li, Xuefei Ning, Zhihang Yuan, Shengen Yan, Guohao Dai, Yu Wang | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 10 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,Computation and Language,یادگیری ماشین , هوش مصنوعی , محاسبات و زبان , | ||||||||
| توضیحات | Submitted 16 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارائه شده 16 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Large Language Models (LLMs) have been widely adopted to process long-context tasks. However, the large memory overhead of the key-value (KV) cache poses significant challenges in long-context scenarios. Existing training-free KV cache compression methods typically focus on quantization and token pruning, which have compression limits, and excessive sparsity can lead to severe performance degradation. Other methods design new architectures with less KV overhead but require significant training overhead. To address the above two drawbacks, we further explore the redundancy in the channel dimension and apply an architecture-level design with minor training costs. Therefore, we introduce CSKV, a training-efficient Channel Shrinking technique for KV cache compression: (1) We first analyze the singular value distribution of the KV cache, revealing significant redundancy and compression potential along the channel dimension. Based on this observation, we propose using low-rank decomposition for key and value layers and storing the low-dimension features. (2) To preserve model performance, we introduce a bi-branch KV cache, including a window-based full-precision KV cache and a low-precision compressed KV cache. (3) To reduce the training costs, we minimize the layer-wise reconstruction loss for the compressed KV cache instead of retraining the entire LLMs. Extensive experiments show that CSKV can reduce the memory overhead of the KV cache by 80% while maintaining the model’s long-context capability. Moreover, we show that our method can be seamlessly combined with quantization to further reduce the memory overhead, achieving a compression ratio of up to 95%.
چکیده به فارسی (ترجمه ماشینی)
مدل های بزرگ زبان (LLMS) به طور گسترده ای برای پردازش وظایف طولانی مدت اتخاذ شده اند.با این حال ، سربار بزرگ حافظه حافظه نهان ارزش کلیدی (KV) در سناریوهای با متن طولانی چالش های قابل توجهی را ایجاد می کند.روشهای فشرده سازی حافظه نهان KV بدون آموزش ، به طور معمول بر روی کمیت و هرس نشانه تمرکز می کنند ، که دارای محدودیت فشرده سازی هستند و کمبود بیش از حد می تواند منجر به تخریب عملکرد شدید شود.سایر روشها معماری های جدید را با سربار KV کمتری طراحی می کنند اما نیاز به آموزش قابل توجهی به سربار دارند.برای پرداختن به دو اشکال فوق ، ما بیشتر در مورد افزونگی در ابعاد کانال کشف می کنیم و یک طراحی سطح معماری را با هزینه های آموزش جزئی اعمال می کنیم.بنابراین ، ما CSKV ، یک تکنیک کوچک شدن کانال با کارآیی را برای فشرده سازی حافظه پنهان KV معرفی می کنیم: (1) ما ابتدا توزیع ارزش مفرد حافظه نهان KV را تجزیه و تحلیل می کنیم ، و پتانسیل افزونگی و فشرده سازی قابل توجهی را در طول کانال نشان می دهیم.بر اساس این مشاهدات ، ما پیشنهاد می کنیم با استفاده از تجزیه کم رتبه برای لایه های کلید و ارزش و ذخیره ویژگی های کم بعدی.(2) برای حفظ عملکرد مدل ، ما یک حافظه نهان KV دو شاخه ای را معرفی می کنیم ، از جمله حافظه نهان KV با دقت کامل و یک حافظه پنهان KV با دقت کم.(3) برای کاهش هزینه های آموزش ، ما به جای بازآفرینی کل LLMS ، از دست دادن بازسازی لایه برای حافظه نهان KV فشرده شده به حداقل می رسیم.آزمایش های گسترده نشان می دهد که CSKV می تواند ضمن حفظ قابلیت متن طولانی مدل ، حافظه حافظه نهان KV را 80 ٪ کاهش دهد.علاوه بر این ، ما نشان می دهیم که روش ما می تواند یکپارچه با کمیت ترکیب شود تا بیشتر حافظه را کاهش دهد و به نسبت فشرده سازی تا 95 ٪ برسد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.