,

ترجمه فارسی مقاله پالو: فشرده‌سازی KV-Cache با تصویرسازی رتبه پایین

19,000 تومان680,000 تومان

شناسه محصول: نامعلوم دسته: ,
عنوان مقاله به انگلیسی Palu: Compressing KV-Cache with Low-Rank Projection
عنوان مقاله به فارسی ترجمه فارسی مقاله پالو: فشرده‌سازی KV-Cache با تصویرسازی رتبه پایین
نویسندگان Chi-Chih Chang, Wei-Cheng Lin, Chien-Yu Lin, Chong-Yan Chen, Yu-Fang Hu, Pei-Shuo Wang, Ning-Chi Huang, Luis Ceze, Kai-Chiang Wu
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 17
دسته بندی موضوعات Artificial Intelligence,Machine Learning,هوش مصنوعی , یادگیری ماشین ,
توضیحات Submitted 30 July, 2024; originally announced July 2024.
توضیحات به فارسی ارسال شده 30 ژوئیه 2024 ؛در ابتدا ژوئیه 2024 اعلام شد.

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحه‌ای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.

قیمت: 99,000 تومان

سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحه‌ای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.

قیمت: 680,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

KV-Cache compression methods generally sample a KV-Cache of effectual tokens or quantize it into lower bits. However, these methods cannot exploit the redundancy of the hidden dimension of KV tensors. This paper investigates a unique hidden dimension approach called Palu, a novel KV-Cache compression framework that utilizes low-rank projection. Palu decomposes the linear layers into low-rank matrices, caches the smaller intermediate states, and reconstructs the full keys and values on the fly. To improve accuracy, compression rate, and efficiency, Palu further encompasses (1) a medium-grained low-rank decomposition scheme, (2) an efficient rank search algorithm, (3) a low-rank-aware quantization algorithm, and (4) matrix fusion with optimized GPU kernels. Our extensive experiments with popular LLMs show that Palu can compress KV-Cache by more than 91.25% while maintaining a significantly better accuracy (up to 1.19 lower perplexity) than state-of-the-art KV-Cache quantization methods at a similar or even higher memory usage. When compressing KV-Cache for 50%, Palu delivers up to 1.61x end-to-end speedup for the attention module. Our code is publicly available at https://github.com/shadowpa0327/Palu.

چکیده به فارسی (ترجمه ماشینی)

روشهای فشرده سازی KV-Cache به طور کلی نمونه ای از مخزن KV از نشانه های مؤثر را نمونه می گیرند یا آن را به قسمتهای پایین تر می اندازند.با این حال ، این روش ها نمی توانند از افزونگی بعد پنهان تانسرهای KV سوء استفاده کنند.در این مقاله یک رویکرد ابعاد منحصر به فرد به نام PALU ، یک چارچوب فشرده سازی KV-Cache جدید که از طرح ریزی پایین استفاده می کند ، بررسی شده است.PALU لایه های خطی را به ماتریس های درجه پایین تجزیه می کند ، حالت های واسطه ای کوچکتر را ذخیره می کند و کلیدها و مقادیر کامل را در پرواز بازسازی می کند.برای بهبود دقت ، میزان فشرده سازی و کارآیی ، PALU بیشتر شامل (1) یک طرح تجزیه درجه پایین دانه متوسط ​​، (2) یک الگوریتم جستجوی رتبه کارآمد ، (3) یک الگوریتم کمیت کمیت آگاه و کم درجه) همجوشی ماتریس با هسته های GPU بهینه شده.آزمایش های گسترده ما با LLM های محبوب نشان می دهد که PALU می تواند در حالی که دقت قابل توجهی بهتر (حداکثر 1.19 دفع پایین تر) را نسبت به روشهای کمترین کیفیت KV-Cache در یک نوع اندازه گیری KV-Cache با بیش از 91.25 ٪ فشرده می کند ، در یک نوع قابل توجه بهتر (حداکثر 1.19 دفع پایین تر) (حداکثر 1.19 دفع پایین تر) (حداکثر 1.19 دفاعی پایین تر) (حداکثر 1.19) نسبت به روش های مشابه یا حتی بهتر باشد.استفاده از حافظه بالاترهنگام فشرده سازی KV-Cache به مدت 50 ٪ ، PALU برای ماژول توجه حداکثر 1.61x سرعت پایان به پایان را ارائه می دهد.کد ما به صورت عمومی در https://github.com/shadowpa0327/palu در دسترس است.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله, سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله پالو: فشرده‌سازی KV-Cache با تصویرسازی رتبه پایین”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا