ترجمه فارسی مقاله ISO: همپوشانی محاسبات و ارتباطات در داخل دنباله برای استنباط LLM

160,000 تومان

عنوان مقاله به انگلیسی ISO: Overlap of Computation and Communication within Seqenence For LLM Inference
عنوان مقاله به فارسی ترجمه فارسی مقاله ISO: همپوشانی محاسبات و ارتباطات در داخل دنباله برای استنباط LLM
نویسندگان Bin Xiao, Lei Su
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 8
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Distributed, Parallel, and Cluster Computing,Computation and Language,Machine Learning,Performance,محاسبات , محاسبات و زبان , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , محاسبات و خوشه
توضیحات Submitted 4 September, 2024; originally announced September 2024.
توضیحات به فارسی ارسال شده در 4 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

In the realm of Large Language Model (LLM) inference, the inherent structure of transformer models coupled with the multi-GPU tensor parallelism strategy leads to a sequential execution of computation and communication. This results in substantial underutilization of computing resources during the communication phase. To mitigate this inefficiency, various techniques have been developed to optimize the use of computational power throughout the communication process. These strategies primarily involve overlapping matrix computations and communications, as well as interleaving micro-batches across different requests. Nonetheless, these approaches either fall short of achieving ideal overlap or impose certain limitations on their application. To overcome these challenges, this paper introduces a novel strategy for computation-communication overlap that operates at the sequence level. This method not only enhances the degree of overlap but also minimizes the constraints on its applicability. Experimental evaluations conducted using 30b/70b models have demonstrated significant improvements in efficiency. Specifically, the proposed technique has been shown to reduce time consumption by approximately 35% on 4090 GPU and by roughly 15% on A800 GPU during the prefill stage of LLM inference.

چکیده به فارسی (ترجمه ماشینی)

در قلمرو استنتاج مدل زبان بزرگ (LLM) ، ساختار ذاتی مدل های ترانسفورماتور همراه با استراتژی موازی تانسور چند GPU منجر به اجرای متوالی محاسبات و ارتباطات می شود.این منجر به عدم استفاده قابل توجهی از منابع محاسباتی در مرحله ارتباطات می شود.برای کاهش این ناکارآمدی ، تکنیک های مختلفی برای بهینه سازی استفاده از قدرت محاسباتی در طول فرآیند ارتباطات ایجاد شده است.این استراتژی ها در درجه اول شامل محاسبات و ارتباطات ماتریس با هم همپوشانی ، و همچنین در بین میکرو دسته ها در درخواست های مختلف است.با این وجود ، این رویکردها یا از دستیابی به همپوشانی ایده آل یا محدودیت های خاصی در کاربرد آنها تحمیل می کنند.برای غلبه بر این چالش ها ، این مقاله یک استراتژی جدید برای همپوشانی محاسبات-ارتباطات که در سطح دنباله کار می کند ، معرفی می کند.این روش نه تنها میزان همپوشانی را افزایش می دهد بلکه محدودیت های کاربرد آن را به حداقل می رساند.ارزیابی های تجربی انجام شده با استفاده از مدلهای 30B/70B پیشرفت های قابل توجهی در کارآیی نشان داده است.به طور خاص ، تکنیک پیشنهادی نشان داده شده است که میزان مصرف زمان را تقریباً 35 ٪ در 4090 GPU و تقریباً 15 ٪ در GPU A800 در مرحله مقدماتی استنتاج LLM کاهش می دهد.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله ISO: همپوشانی محاسبات و ارتباطات در داخل دنباله برای استنباط LLM”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا