,

ترجمه فارسی مقاله فشرده‌سازی QKV با تأخیر صفر برای کاهش گلوگاه‌های حافظه نهان KV و شبکه در استنتاج LLM

19,000 تومان640,000 تومان

شناسه محصول: نامعلوم دسته: ,
عنوان مقاله به انگلیسی Zero-Delay QKV Compression for Mitigating KV Cache and Network Bottlenecks in LLM Inference
عنوان مقاله به فارسی ترجمه فارسی مقاله فشرده‌سازی QKV با تأخیر صفر برای کاهش گلوگاه‌های حافظه نهان KV و شبکه در استنتاج LLM
نویسندگان Zeyu Zhang, Haiying Shen
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 16
دسته بندی موضوعات Machine Learning,Distributed, Parallel, and Cluster Computing,یادگیری ماشین , توزیع , موازی و محاسبات خوشه ای ,
توضیحات Submitted 7 August, 2024; originally announced August 2024.
توضیحات به فارسی ارسال شده در 7 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 640,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

In large-language models, memory constraints in the key-value cache (KVC) pose a challenge during inference, especially with long prompts. In this work, we observed that compressing KV values is more effective than compressing the model regarding accuracy and job completion time (JCT). However, quantizing KV values and dropping less-important tokens incur significant runtime computational time overhead, delaying JCT. These methods also cannot reduce computation time or high network communication time overhead in sequence-parallelism (SP) frameworks for long prompts. To tackle these issues, based on our insightful observations from experimental analysis, we propose ZeroC, a Zero-delay QKV Compression system that eliminates time overhead and even reduces computation and communication time of the model operations. ZeroC innovatively embeds compression and decompression operations within model operations and adaptively determines compression ratios at a hybrid layer-token level. Further, it enables a communication-efficient SP inference framework. Trace-driven experiments demonstrate that ZeroC achieves up to 80% lower average JCT, 35% lower average perplexity, and 2.8x higher throughput with the same latency compared to state-of-the-art compression methods. ZeroC also reduces the average JCT of current LLM serving systems by up to 91% with the constraint of 0.1 perplexity increase. We open-sourced the code.

چکیده به فارسی (ترجمه ماشینی)

در مدل های بزرگ به زبان ، محدودیت های حافظه در حافظه نهان کلیدی (KVC) در هنگام استنتاج ، به ویژه با پیشبرد های طولانی ، یک چالش را ایجاد می کند.در این کار ، ما مشاهده کردیم که فشرده سازی مقادیر KV مؤثرتر از فشرده سازی مدل در مورد صحت و زمان تکمیل شغل (JCT) است.با این حال ، کمیت مقادیر KV و کاهش نشانه های کم اهمیت ، زمان محاسباتی قابل توجهی را در بالای سر انجام می دهد و JCT را به تأخیر می اندازد.این روشها همچنین نمی توانند زمان محاسبه یا زمان ارتباط زیاد شبکه را در چارچوب های توالی-موازی (SP) برای پیشبرد های طولانی کاهش دهند.برای مقابله با این موضوعات ، بر اساس مشاهدات روشنگری ما از تجزیه و تحلیل تجربی ، ما Zeroc ، یک سیستم فشرده سازی QKV با تأخیر صفر را پیشنهاد می کنیم که زمان را از بین می برد و حتی زمان محاسبات و ارتباطات عملکرد مدل را کاهش می دهد.Zeroc به طور خلاقانه عملیات فشرده سازی و رفع فشار را در عملیات مدل تعبیه می کند و نسبت های فشرده سازی را در یک سطح لایه ترکیبی تنظیم می کند.علاوه بر این ، این یک چارچوب استنتاج SP با ارتباط با ارتباط را امکان پذیر می کند.آزمایشات ردیابی نشان می دهد که ZEROC تا 80 ٪ متوسط ​​JCT ، 35 ٪ میانگین دچار اختلال پایین تر و 2.8 برابر بالاتر با همان تأخیر در مقایسه با روش های فشرده سازی پیشرفته به دست می آورد.Zeroc همچنین با محدودیت افزایش 0.1 دچار افزایش دفع ، میانگین JCT سیستم های خدمت LLM فعلی را تا 91 ٪ کاهش می دهد.ما کد را باز کردیم.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, سفارش ترجمه فارسی مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله فشرده‌سازی QKV با تأخیر صفر برای کاهش گلوگاه‌های حافظه نهان KV و شبکه در استنتاج LLM”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا