| عنوان مقاله به انگلیسی | Post-Training Sparse Attention with Double Sparsity | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله توجه پراکنده بعد از تمرین با پراکندگی مضاعف | ||||||||
| نویسندگان | Shuo Yang, Ying Sheng, Joseph E. Gonzalez, Ion Stoica, Lianmin Zheng | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 22 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,Computation and Language,یادگیری ماشین , هوش مصنوعی , محاسبات و زبان , | ||||||||
| توضیحات | Submitted 18 August, 2024; v1 submitted 11 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | ارائه شده در 18 اوت 2024 ؛V1 ارسال شده 11 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
The inference process for large language models is slow and memory-intensive, with one of the most critical bottlenecks being excessive Key-Value (KV) cache accesses. This paper introduces “Double Sparsity,” a novel post-training sparse attention technique designed to alleviate this bottleneck by reducing KV cache access. Double Sparsity combines token sparsity, which focuses on utilizing only the important tokens for computing self-attention, with channel sparsity, an approach that uses important feature channels for identifying important tokens. Our key insight is that the pattern of channel sparsity is relatively static, allowing us to use offline calibration to make it efficient at runtime, thereby enabling accurate and efficient identification of important tokens. Moreover, this method can be combined with offloading to achieve significant memory usage reduction. Experimental results demonstrate that Double Sparsity can achieve $\frac{1}{16}$ token and channel sparsity with minimal impact on accuracy across various tasks, including wiki-2 perplexity, key-value retrieval, and long context benchmarks with models including Llama-2-7B, Llama-2-70B, and Mixtral-8x7B. It brings up to a 14.1$\times$ acceleration in attention operations and a 1.9$\times$ improvement in end-to-end inference on GPUs. With offloading, it achieves a decoding speed acceleration of 16.3$\times$ compared to state-of-the-art solutions at a sequence length of 256K. Our code is publicly available at https://github.com/andy-yang-1/DoubleSparse.
چکیده به فارسی (ترجمه ماشینی)
فرآیند استنباط برای مدلهای بزرگ زبان آهسته و با حافظه پر است و یکی از مهمترین تنگناها به حافظه نهان بیش از حد کلید (KV) دسترسی دارد.در این مقاله “مضاعف دوتایی” ، یک تکنیک توجه پراکنده پس از آموزش طراحی شده است که برای کاهش این تنگنا با کاهش دسترسی به حافظه پنهان KV طراحی شده است.مضاعف دوتایی ترکیبات پراکنده توکن را ترکیب می کند ، که بر استفاده از تنها نشانه های مهم برای محاسبه خودآگاهی ، با کمبود کانال متمرکز است ، رویکردی که از کانال های مهم برای شناسایی نشانه های مهم استفاده می کند.بینش اصلی ما این است که الگوی کمبود کانال نسبتاً استاتیک است و به ما امکان می دهد از کالیبراسیون آفلاین استفاده کنیم تا آن را در زمان اجرا کارآمد کنیم و از این طریق شناسایی دقیق و کارآمد نشانه های مهم را امکان پذیر کنیم.علاوه بر این ، این روش برای دستیابی به کاهش قابل توجه استفاده از حافظه می تواند با بارگیری ترکیب شود.نتایج تجربی نشان می دهد که پراکندگی مضاعف می تواند به $ \ frac {1} {16} $ $ $ $ $ و کانال با حداقل تأثیر بر دقت در کارهای مختلف ، از جمله دفع ویکی -2 ، بازیابی ارزش کلیدی و معیارهای طولانی زمینه با مدل هایی از جمله LLAMA دست یابد.-2-7B ، Llama-2-70B و Mixtral-8x7B.این شتاب 14.1 $ \ برابر $ در عملیات توجه و پیشرفت 1.9 $ \ $ $ در استنتاج پایان به پایان در GPU ها را به همراه می آورد.با بارگیری ، آن را به شتاب سرعت رمزگشایی 16.3 $ \ برابر $ در مقایسه با راه حل های پیشرفته در طول دنباله 256k می رساند.کد ما به صورت عمومی در https://github.com/andy-yang-1/doublesparse در دسترس است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.