| عنوان مقاله به انگلیسی | LUT Tensor Core: Lookup Table Enables Efficient Low-Bit LLM Inference Acceleration |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله هسته تنسور LUT: جدول جستجو، شتابدهی استنتاج LLM کمبیت کارآمد را امکانپذیر میکند |
| نویسندگان | Zhiwen Mo, Lei Wang, Jianyu Wei, Zhichen Zeng, Shijie Cao, Lingxiao Ma, Naifeng Jing, Ting Cao, Jilong Xue, Fan Yang, Mao Yang |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 14 |
| دسته بندی موضوعات | Hardware Architecture,Machine Learning,معماری سخت افزار , یادگیری ماشین , |
| توضیحات | Submitted 12 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارائه شده 12 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 560,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
As large language model (LLM) inference demands ever-greater resources, there is a rapid growing trend of using low-bit weights to shrink memory usage and boost inference efficiency. However, these low-bit LLMs introduce the need for mixed-precision matrix multiplication (mpGEMM), which is a crucial yet under-explored operation that involves multiplying lower-precision weights with higher-precision activations. Unfortunately, current hardware does not natively support mpGEMM, resulting in indirect and inefficient dequantization-based implementations. To address the mpGEMM requirements in low-bit LLMs, we explored the lookup table (LUT)-based approach for mpGEMM. However, a conventional LUT implementation falls short of its potential. To fully harness the power of LUT-based mpGEMM, we introduce LUT Tensor Core, a software-hardware co-design optimized for low-bit LLM inference. Specifically, we introduce software-based operator fusion and table symmetrization techniques to optimize table precompute and table storage, respectively. Then, LUT Tensor Core proposes the hardware design featuring an elongated tiling shape design to enhance table reuse and a bit-serial design to support various precision combinations in mpGEMM. Moreover, we design an end-to-end compilation stack with new instructions for LUT-based mpGEMM, enabling efficient LLM compilation and optimizations. The evaluation on low-bit LLMs (e.g., BitNet, LLAMA) shows that LUT Tensor Core achieves more than a magnitude of improvements on both compute density and energy efficiency.
چکیده به فارسی (ترجمه ماشینی)
از آنجا که استنتاج مدل زبان بزرگ (LLM) منابع همیشه پرشور را می طلبد ، روند رشد سریع استفاده از وزن کم بیت برای کاهش مصرف حافظه و تقویت راندمان استنتاج وجود دارد.با این حال ، این LLM های کم بیت نیاز به ضرب ماتریس با دقت مختلط (MPGEMM) را معرفی می کنند ، که یک عمل مهم و در عین حال تحت تأثیر است که شامل ضرب وزن با دقت پایین با فعال سازی با دقت بالاتر است.متأسفانه ، سخت افزار فعلی به طور بومی از MPGEMM پشتیبانی نمی کند ، و در نتیجه اجراهای غیر مستقیم و ناکارآمد مبتنی بر تخریب است.برای پرداختن به الزامات MPGEMM در LLM های کم بیت ، ما رویکرد جدول جستجو (LUT) مبتنی بر MPGEMM را مورد بررسی قرار دادیم.با این حال ، یک اجرای معمولی LUT از پتانسیل آن کم است.برای به کار بردن کامل قدرت MPGEMM مبتنی بر LUT ، ما Lut Tensor Core را معرفی می کنیم ، یک نرم افزار سخت افزار بهینه سازی شده برای استنتاج LLM کم بیت.به طور خاص ، ما به ترتیب تکنیک های فیوژن اپراتور مبتنی بر نرم افزار و جدول را برای بهینه سازی جدول و ذخیره جدول به ترتیب معرفی می کنیم.سپس ، Lut Tensor Core طرح سخت افزاری را ارائه می دهد که شامل یک طراحی شکل کاشی کاری دراز برای تقویت استفاده مجدد از جدول و یک طراحی بیت سریال برای پشتیبانی از ترکیبات مختلف دقیق در MPGEMM است.علاوه بر این ، ما یک پشته تلفیقی پایان به پایان را با دستورالعمل های جدید برای MPGEMM مبتنی بر LUT طراحی می کنیم و امکان تهیه و بهینه سازی LLM کارآمد را فراهم می کنیم.ارزیابی در LLM های کم بیتی (به عنوان مثال ، Bitnet ، Llama) نشان می دهد که هسته تانسور لوت بیش از یک افزایش در چگالی محاسبه و راندمان انرژی به دست می آید.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.