,

ترجمه فارسی مقاله هسته تنسور LUT: جدول جستجو، شتاب‌دهی استنتاج LLM کم‌بیت کارآمد را امکان‌پذیر می‌کند

19,000 تومان560,000 تومان

شناسه محصول: نامعلوم دسته: ,
عنوان مقاله به انگلیسی LUT Tensor Core: Lookup Table Enables Efficient Low-Bit LLM Inference Acceleration
عنوان مقاله به فارسی ترجمه فارسی مقاله هسته تنسور LUT: جدول جستجو، شتاب‌دهی استنتاج LLM کم‌بیت کارآمد را امکان‌پذیر می‌کند
نویسندگان Zhiwen Mo, Lei Wang, Jianyu Wei, Zhichen Zeng, Shijie Cao, Lingxiao Ma, Naifeng Jing, Ting Cao, Jilong Xue, Fan Yang, Mao Yang
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 14
دسته بندی موضوعات Hardware Architecture,Machine Learning,معماری سخت افزار , یادگیری ماشین ,
توضیحات Submitted 12 August, 2024; originally announced August 2024.
توضیحات به فارسی ارائه شده 12 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 560,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

As large language model (LLM) inference demands ever-greater resources, there is a rapid growing trend of using low-bit weights to shrink memory usage and boost inference efficiency. However, these low-bit LLMs introduce the need for mixed-precision matrix multiplication (mpGEMM), which is a crucial yet under-explored operation that involves multiplying lower-precision weights with higher-precision activations. Unfortunately, current hardware does not natively support mpGEMM, resulting in indirect and inefficient dequantization-based implementations. To address the mpGEMM requirements in low-bit LLMs, we explored the lookup table (LUT)-based approach for mpGEMM. However, a conventional LUT implementation falls short of its potential. To fully harness the power of LUT-based mpGEMM, we introduce LUT Tensor Core, a software-hardware co-design optimized for low-bit LLM inference. Specifically, we introduce software-based operator fusion and table symmetrization techniques to optimize table precompute and table storage, respectively. Then, LUT Tensor Core proposes the hardware design featuring an elongated tiling shape design to enhance table reuse and a bit-serial design to support various precision combinations in mpGEMM. Moreover, we design an end-to-end compilation stack with new instructions for LUT-based mpGEMM, enabling efficient LLM compilation and optimizations. The evaluation on low-bit LLMs (e.g., BitNet, LLAMA) shows that LUT Tensor Core achieves more than a magnitude of improvements on both compute density and energy efficiency.

چکیده به فارسی (ترجمه ماشینی)

از آنجا که استنتاج مدل زبان بزرگ (LLM) منابع همیشه پرشور را می طلبد ، روند رشد سریع استفاده از وزن کم بیت برای کاهش مصرف حافظه و تقویت راندمان استنتاج وجود دارد.با این حال ، این LLM های کم بیت نیاز به ضرب ماتریس با دقت مختلط (MPGEMM) را معرفی می کنند ، که یک عمل مهم و در عین حال تحت تأثیر است که شامل ضرب وزن با دقت پایین با فعال سازی با دقت بالاتر است.متأسفانه ، سخت افزار فعلی به طور بومی از MPGEMM پشتیبانی نمی کند ، و در نتیجه اجراهای غیر مستقیم و ناکارآمد مبتنی بر تخریب است.برای پرداختن به الزامات MPGEMM در LLM های کم بیت ، ما رویکرد جدول جستجو (LUT) مبتنی بر MPGEMM را مورد بررسی قرار دادیم.با این حال ، یک اجرای معمولی LUT از پتانسیل آن کم است.برای به کار بردن کامل قدرت MPGEMM مبتنی بر LUT ، ما Lut Tensor Core را معرفی می کنیم ، یک نرم افزار سخت افزار بهینه سازی شده برای استنتاج LLM کم بیت.به طور خاص ، ما به ترتیب تکنیک های فیوژن اپراتور مبتنی بر نرم افزار و جدول را برای بهینه سازی جدول و ذخیره جدول به ترتیب معرفی می کنیم.سپس ، Lut Tensor Core طرح سخت افزاری را ارائه می دهد که شامل یک طراحی شکل کاشی کاری دراز برای تقویت استفاده مجدد از جدول و یک طراحی بیت سریال برای پشتیبانی از ترکیبات مختلف دقیق در MPGEMM است.علاوه بر این ، ما یک پشته تلفیقی پایان به پایان را با دستورالعمل های جدید برای MPGEMM مبتنی بر LUT طراحی می کنیم و امکان تهیه و بهینه سازی LLM کارآمد را فراهم می کنیم.ارزیابی در LLM های کم بیتی (به عنوان مثال ، Bitnet ، Llama) نشان می دهد که هسته تانسور لوت بیش از یک افزایش در چگالی محاسبه و راندمان انرژی به دست می آید.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, سفارش ترجمه فارسی مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله هسته تنسور LUT: جدول جستجو، شتاب‌دهی استنتاج LLM کم‌بیت کارآمد را امکان‌پذیر می‌کند”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا