| عنوان مقاله به انگلیسی | ISO: Overlap of Computation and Communication within Seqenence For LLM Inference | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله ISO: همپوشانی محاسبات و ارتباطات در داخل دنباله برای استنباط LLM | ||||||||
| نویسندگان | Bin Xiao, Lei Su | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 8 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Distributed, Parallel, and Cluster Computing,Computation and Language,Machine Learning,Performance,محاسبات , محاسبات و زبان , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , محاسبات و خوشه | ||||||||
| توضیحات | Submitted 4 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارسال شده در 4 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
In the realm of Large Language Model (LLM) inference, the inherent structure of transformer models coupled with the multi-GPU tensor parallelism strategy leads to a sequential execution of computation and communication. This results in substantial underutilization of computing resources during the communication phase. To mitigate this inefficiency, various techniques have been developed to optimize the use of computational power throughout the communication process. These strategies primarily involve overlapping matrix computations and communications, as well as interleaving micro-batches across different requests. Nonetheless, these approaches either fall short of achieving ideal overlap or impose certain limitations on their application. To overcome these challenges, this paper introduces a novel strategy for computation-communication overlap that operates at the sequence level. This method not only enhances the degree of overlap but also minimizes the constraints on its applicability. Experimental evaluations conducted using 30b/70b models have demonstrated significant improvements in efficiency. Specifically, the proposed technique has been shown to reduce time consumption by approximately 35% on 4090 GPU and by roughly 15% on A800 GPU during the prefill stage of LLM inference.
چکیده به فارسی (ترجمه ماشینی)
در قلمرو استنتاج مدل زبان بزرگ (LLM) ، ساختار ذاتی مدل های ترانسفورماتور همراه با استراتژی موازی تانسور چند GPU منجر به اجرای متوالی محاسبات و ارتباطات می شود.این منجر به عدم استفاده قابل توجهی از منابع محاسباتی در مرحله ارتباطات می شود.برای کاهش این ناکارآمدی ، تکنیک های مختلفی برای بهینه سازی استفاده از قدرت محاسباتی در طول فرآیند ارتباطات ایجاد شده است.این استراتژی ها در درجه اول شامل محاسبات و ارتباطات ماتریس با هم همپوشانی ، و همچنین در بین میکرو دسته ها در درخواست های مختلف است.با این وجود ، این رویکردها یا از دستیابی به همپوشانی ایده آل یا محدودیت های خاصی در کاربرد آنها تحمیل می کنند.برای غلبه بر این چالش ها ، این مقاله یک استراتژی جدید برای همپوشانی محاسبات-ارتباطات که در سطح دنباله کار می کند ، معرفی می کند.این روش نه تنها میزان همپوشانی را افزایش می دهد بلکه محدودیت های کاربرد آن را به حداقل می رساند.ارزیابی های تجربی انجام شده با استفاده از مدلهای 30B/70B پیشرفت های قابل توجهی در کارآیی نشان داده است.به طور خاص ، تکنیک پیشنهادی نشان داده شده است که میزان مصرف زمان را تقریباً 35 ٪ در 4090 GPU و تقریباً 15 ٪ در GPU A800 در مرحله مقدماتی استنتاج LLM کاهش می دهد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.