| عنوان مقاله به انگلیسی | ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله ABQ-LLM: شتاب استنتاج کوانتیزه بیت دلخواه برای مدل های زبان بزرگ | ||||||||
| نویسندگان | Chao Zeng, Songwei Liu, Yusheng Xie, Hong Liu, Xiaojian Wang, Miao Wei, Shu Yang, Fangmin Chen, Xing Mei | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 19 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,یادگیری ماشین , | ||||||||
| توضیحات | Submitted 22 August, 2024; v1 submitted 16 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | ارسال شده در 22 اوت 2024 ؛V1 ارسال شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Large Language Models (LLMs) have revolutionized natural language processing tasks. However, their practical application is constrained by substantial memory and computational demands. Post-training quantization (PTQ) is considered an effective method to accelerate LLM inference. Despite its growing popularity in LLM model compression, PTQ deployment faces two major challenges. First, low-bit quantization leads to performance degradation. Second, restricted by the limited integer computing unit type on GPUs, quantized matrix operations with different precisions cannot be effectively accelerated. To address these issues, we introduce a novel arbitrary-bit quantization algorithm and inference framework, ABQ-LLM. It achieves superior performance across various quantization settings and enables efficient arbitrary-precision quantized inference on the GPU. ABQ-LLM introduces several key innovations: (1) a distribution correction method for transformer blocks to mitigate distribution differences caused by full quantization of weights and activations, improving performance at low bit-widths. (2) the bit balance strategy to counteract performance degradation from asymmetric distribution issues at very low bit-widths (e.g., 2-bit). (3) an innovative quantization acceleration framework that reconstructs the quantization matrix multiplication of arbitrary precision combinations based on BTC (Binary TensorCore) equivalents, gets rid of the limitations of INT4/INT8 computing units. ABQ-LLM can convert each component bit width gain into actual acceleration gain, maximizing performance under mixed precision(e.g., W6A6, W2A8). Based on W2*A8 quantization configuration on LLaMA-7B model, it achieved a WikiText2 perplexity of 7.59 (2.17$\downarrow $ vs 9.76 in AffineQuant). Compared to SmoothQuant, we realized 1.6$\times$ acceleration improvement and 2.7$\times$ memory compression gain.
چکیده به فارسی (ترجمه ماشینی)
مدل های بزرگ زبان (LLM) وظایف پردازش زبان طبیعی را متحول کرده اند.با این حال ، کاربرد عملی آنها توسط حافظه قابل توجه و خواسته های محاسباتی محدود می شود.کمیت پس از آموزش (PTQ) یک روش مؤثر برای تسریع در استنتاج LLM در نظر گرفته می شود.با وجود محبوبیت روزافزون آن در فشرده سازی مدل LLM ، استقرار PTQ با دو چالش اساسی روبرو است.اول ، کمیت کم بیت منجر به تخریب عملکرد می شود.دوم ، محدود شده توسط نوع واحد محاسبات عدد صحیح محدود در GPU ، عملیات ماتریس کمیت با دقت های مختلف نمی تواند به طور موثری تسریع شود.برای پرداختن به این موضوعات ، ما یک الگوریتم کمیت و کمیت خودسرانه جدید و چارچوب استنتاج ، ABQ-LLM را معرفی می کنیم.این عملکرد برتر در تنظیمات مختلف کمیت به دست می آید و استنتاج کمکی با دقت خودسرانه را در GPU امکان پذیر می کند.ABQ-LLM چندین نوآوری کلیدی را معرفی می کند: (1) یک روش تصحیح توزیع برای بلوک های ترانسفورماتور برای کاهش تفاوت های توزیع ناشی از کمیت کامل وزن ها و فعال سازی ها ، بهبود عملکرد در عرض های کم.(2) استراتژی تعادل بیت برای مقابله با تخریب عملکرد از مسائل توزیع نامتقارن در عرض بیت بسیار کم (به عنوان مثال ، 2 بیتی).(3) یک چارچوب شتاب کمیت نوآورانه که ضرب ماتریس کمیت را از ترکیبات دقیق دلخواه بر اساس معادل های BTC (Tensorcore باینری) بازسازی می کند ، از محدودیت های واحدهای محاسباتی INT4/INT8 خلاص می شود.ABQ-LLM می تواند هر یک از افزایش عرض بیت مؤلفه را به افزایش شتاب واقعی تبدیل کند و عملکرد را با دقت مختلط به حداکثر برساند (به عنوان مثال ، W6A6 ، W2A8).بر اساس پیکربندی کمیت W2*A8 در مدل LLAMA-7B ، به یک ویکییتکس 2 به شدت از 7.59 (2.17 $ \ downarrow $ در مقابل 9.76 در Affinequant) رسید.در مقایسه با SmoothQuant ، ما 1.6 $ \ برابر $ بهبود شتاب و 2.7 $ \ برابر افزایش فشرده سازی حافظه را متوجه شدیم.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.