ترجمه فارسی مقاله توجه پراکنده بعد از تمرین با پراکندگی مضاعف

880,000 تومان

عنوان مقاله به انگلیسی Post-Training Sparse Attention with Double Sparsity
عنوان مقاله به فارسی ترجمه فارسی مقاله توجه پراکنده بعد از تمرین با پراکندگی مضاعف
نویسندگان Shuo Yang, Ying Sheng, Joseph E. Gonzalez, Ion Stoica, Lianmin Zheng
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 22
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Artificial Intelligence,Computation and Language,یادگیری ماشین , هوش مصنوعی , محاسبات و زبان ,
توضیحات Submitted 18 August, 2024; v1 submitted 11 August, 2024; originally announced August 2024.
توضیحات به فارسی ارائه شده در 18 اوت 2024 ؛V1 ارسال شده 11 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

The inference process for large language models is slow and memory-intensive, with one of the most critical bottlenecks being excessive Key-Value (KV) cache accesses. This paper introduces “Double Sparsity,” a novel post-training sparse attention technique designed to alleviate this bottleneck by reducing KV cache access. Double Sparsity combines token sparsity, which focuses on utilizing only the important tokens for computing self-attention, with channel sparsity, an approach that uses important feature channels for identifying important tokens. Our key insight is that the pattern of channel sparsity is relatively static, allowing us to use offline calibration to make it efficient at runtime, thereby enabling accurate and efficient identification of important tokens. Moreover, this method can be combined with offloading to achieve significant memory usage reduction. Experimental results demonstrate that Double Sparsity can achieve $\frac{1}{16}$ token and channel sparsity with minimal impact on accuracy across various tasks, including wiki-2 perplexity, key-value retrieval, and long context benchmarks with models including Llama-2-7B, Llama-2-70B, and Mixtral-8x7B. It brings up to a 14.1$\times$ acceleration in attention operations and a 1.9$\times$ improvement in end-to-end inference on GPUs. With offloading, it achieves a decoding speed acceleration of 16.3$\times$ compared to state-of-the-art solutions at a sequence length of 256K. Our code is publicly available at https://github.com/andy-yang-1/DoubleSparse.

چکیده به فارسی (ترجمه ماشینی)

فرآیند استنباط برای مدلهای بزرگ زبان آهسته و با حافظه پر است و یکی از مهمترین تنگناها به حافظه نهان بیش از حد کلید (KV) دسترسی دارد.در این مقاله “مضاعف دوتایی” ، یک تکنیک توجه پراکنده پس از آموزش طراحی شده است که برای کاهش این تنگنا با کاهش دسترسی به حافظه پنهان KV طراحی شده است.مضاعف دوتایی ترکیبات پراکنده توکن را ترکیب می کند ، که بر استفاده از تنها نشانه های مهم برای محاسبه خودآگاهی ، با کمبود کانال متمرکز است ، رویکردی که از کانال های مهم برای شناسایی نشانه های مهم استفاده می کند.بینش اصلی ما این است که الگوی کمبود کانال نسبتاً استاتیک است و به ما امکان می دهد از کالیبراسیون آفلاین استفاده کنیم تا آن را در زمان اجرا کارآمد کنیم و از این طریق شناسایی دقیق و کارآمد نشانه های مهم را امکان پذیر کنیم.علاوه بر این ، این روش برای دستیابی به کاهش قابل توجه استفاده از حافظه می تواند با بارگیری ترکیب شود.نتایج تجربی نشان می دهد که پراکندگی مضاعف می تواند به $ \ frac {1} {16} $ $ $ $ $ و کانال با حداقل تأثیر بر دقت در کارهای مختلف ، از جمله دفع ویکی -2 ، بازیابی ارزش کلیدی و معیارهای طولانی زمینه با مدل هایی از جمله LLAMA دست یابد.-2-7B ، Llama-2-70B و Mixtral-8x7B.این شتاب 14.1 $ \ برابر $ در عملیات توجه و پیشرفت 1.9 $ \ $ $ در استنتاج پایان به پایان در GPU ها را به همراه می آورد.با بارگیری ، آن را به شتاب سرعت رمزگشایی 16.3 $ \ برابر $ در مقایسه با راه حل های پیشرفته در طول دنباله 256k می رساند.کد ما به صورت عمومی در https://github.com/andy-yang-1/doublesparse در دسترس است.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله توجه پراکنده بعد از تمرین با پراکندگی مضاعف”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا