ترجمه فارسی مقاله بازیابی: تسریع در استنتاج طولانی مدت LLM از طریق بازیابی بردار

320,000 تومان

عنوان مقاله به انگلیسی RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval
عنوان مقاله به فارسی ترجمه فارسی مقاله بازیابی: تسریع در استنتاج طولانی مدت LLM از طریق بازیابی بردار
نویسندگان Di Liu, Meng Chen, Baotong Lu, Huiqiang Jiang, Zhenhua Han, Qianxi Zhang, Qi Chen, Chengruidong Zhang, Bailu Ding, Kai Zhang, Chen Chen, Fan Yang, Yuqing Yang, Lili Qiu
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 16
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Computation and Language,یادگیری ماشین , محاسبه و زبان ,
توضیحات Submitted 18 September, 2024; v1 submitted 16 September, 2024; originally announced September 2024. , Comments: 16 pages
توضیحات به فارسی ارائه شده در 18 سپتامبر 2024 ؛V1 ارسال شده 16 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد ، نظرات: 16 صفحه
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Transformer-based Large Language Models (LLMs) have become increasingly important. However, due to the quadratic time complexity of attention computation, scaling LLMs to longer contexts incurs extremely slow inference latency and high GPU memory consumption for caching key-value (KV) vectors. This paper proposes RetrievalAttention, a training-free approach to both accelerate attention computation and reduce GPU memory consumption. By leveraging the dynamic sparsity of attention mechanism, RetrievalAttention proposes to use approximate nearest neighbor search (ANNS) indexes for KV vectors in CPU memory and retrieves the most relevant ones with vector search during generation. Unfortunately, we observe that the off-the-shelf ANNS indexes are often ineffective for such retrieval tasks due to the out-of-distribution (OOD) between query vectors and key vectors in attention mechanism. RetrievalAttention addresses the OOD challenge by designing an attention-aware vector search algorithm that can adapt to the distribution of query vectors. Our evaluation shows that RetrievalAttention only needs to access 1–3% of data while maintaining high model accuracy. This leads to significant reduction in the inference cost of long-context LLMs with much lower GPU memory footprint. In particular, RetrievalAttention only needs a single NVIDIA RTX4090 (24GB) for serving 128K tokens in LLMs with 8B parameters, which is capable of generating one token in 0.188 seconds.

چکیده به فارسی (ترجمه ماشینی)

مدل های بزرگ زبان مبتنی بر ترانسفورماتور (LLM) به طور فزاینده ای اهمیت پیدا کرده اند.با این حال ، با توجه به پیچیدگی زمان درجه دوم محاسبه توجه ، مقیاس LLMS به زمینه های طولانی تر ، تأخیر استنباط بسیار کند و مصرف حافظه GPU بالا برای ذخیره بردارهای کلیدی (KV) را متحمل می شود.در این مقاله ، بازیابی ، یک رویکرد بدون آموزش برای هر دو سرعت محاسبه توجه و کاهش مصرف حافظه GPU پیشنهاد شده است.بازیابی با استفاده از استفاده از مکانیسم توجه پویا از مکانیسم توجه ، پیشنهاد می کند از فهرست های تقریبی نزدیکترین همسایه (ANNS) برای بردارهای KV در حافظه CPU استفاده کنید و مهمترین موارد را با جستجوی بردار در طول تولید بازیابی کنید.متأسفانه ، ما مشاهده می کنیم که شاخص های خارج از قفسه ANNS به دلیل توزیع خارج از توزیع (OOD) بین بردارهای پرس و جو و بردارهای کلیدی در مکانیسم توجه ، اغلب برای چنین کارهای بازیابی ناکارآمد هستند.بازیابی با طراحی یک الگوریتم جستجوی وکتور آگاه که می تواند با توزیع بردارهای پرس و جو سازگار باشد ، به چالش OOD می پردازد.ارزیابی ما نشان می دهد که بازیابی فقط باید ضمن حفظ دقت مدل بالا ، به 1-3 ٪ از داده ها دسترسی پیدا کند.این منجر به کاهش قابل توجهی در هزینه استنباط LLMS با متن طولانی با ردپای حافظه GPU بسیار پایین تر می شود.به طور خاص ، بازیابی فقط به یک NVIDIA RTX4090 (24 گیگابایت) برای ارائه خدمات 128K در LLMS با پارامترهای 8B نیاز دارد ، که قادر به ایجاد یک نشانه در 0.188 ثانیه است.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله بازیابی: تسریع در استنتاج طولانی مدت LLM از طریق بازیابی بردار”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا