“مقاله آیا داده های مصنوعی می توانند آموزش شبکه های شمارش عمیق خودروهای صوتی را تقویت کنند؟” به سبد خرید شما اضافه شد. ادامه خرید

“مقاله پیچیدگی توزیع طیفی امواج فیبریلاسیون سطح ، عود فرسایش پس از کاتتر را در فیبریلاسیون دهلیزی مداوم پیش بینی می کند” به سبد خرید شما اضافه شد. ادامه خرید

مقاله علمی

ترجمه فارسی مقاله ISO: همپوشانی محاسبات و ارتباطات در داخل دنباله برای استنباط LLM

160,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	ISO: Overlap of Computation and Communication within Seqenence For LLM Inference
عنوان مقاله به فارسی	ترجمه فارسی مقاله ISO: همپوشانی محاسبات و ارتباطات در داخل دنباله برای استنباط LLM
نویسندگان	Bin Xiao, Lei Su
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	8
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Distributed, Parallel, and Cluster Computing,Computation and Language,Machine Learning,Performance,محاسبات , محاسبات و زبان , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , محاسبات و خوشه
توضیحات	Submitted 4 September, 2024; originally announced September 2024.
توضیحات به فارسی	ارسال شده در 4 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

In the realm of Large Language Model (LLM) inference, the inherent structure of transformer models coupled with the multi-GPU tensor parallelism strategy leads to a sequential execution of computation and communication. This results in substantial underutilization of computing resources during the communication phase. To mitigate this inefficiency, various techniques have been developed to optimize the use of computational power throughout the communication process. These strategies primarily involve overlapping matrix computations and communications, as well as interleaving micro-batches across different requests. Nonetheless, these approaches either fall short of achieving ideal overlap or impose certain limitations on their application. To overcome these challenges, this paper introduces a novel strategy for computation-communication overlap that operates at the sequence level. This method not only enhances the degree of overlap but also minimizes the constraints on its applicability. Experimental evaluations conducted using 30b/70b models have demonstrated significant improvements in efficiency. Specifically, the proposed technique has been shown to reduce time consumption by approximately 35% on 4090 GPU and by roughly 15% on A800 GPU during the prefill stage of LLM inference.

چکیده به فارسی (ترجمه ماشینی)

در قلمرو استنتاج مدل زبان بزرگ (LLM) ، ساختار ذاتی مدل های ترانسفورماتور همراه با استراتژی موازی تانسور چند GPU منجر به اجرای متوالی محاسبات و ارتباطات می شود.این منجر به عدم استفاده قابل توجهی از منابع محاسباتی در مرحله ارتباطات می شود.برای کاهش این ناکارآمدی ، تکنیک های مختلفی برای بهینه سازی استفاده از قدرت محاسباتی در طول فرآیند ارتباطات ایجاد شده است.این استراتژی ها در درجه اول شامل محاسبات و ارتباطات ماتریس با هم همپوشانی ، و همچنین در بین میکرو دسته ها در درخواست های مختلف است.با این وجود ، این رویکردها یا از دستیابی به همپوشانی ایده آل یا محدودیت های خاصی در کاربرد آنها تحمیل می کنند.برای غلبه بر این چالش ها ، این مقاله یک استراتژی جدید برای همپوشانی محاسبات-ارتباطات که در سطح دنباله کار می کند ، معرفی می کند.این روش نه تنها میزان همپوشانی را افزایش می دهد بلکه محدودیت های کاربرد آن را به حداقل می رساند.ارزیابی های تجربی انجام شده با استفاده از مدلهای 30B/70B پیشرفت های قابل توجهی در کارآیی نشان داده است.به طور خاص ، تکنیک پیشنهادی نشان داده شده است که میزان مصرف زمان را تقریباً 35 ٪ در 4090 GPU و تقریباً 15 ٪ در GPU A800 در مرحله مقدماتی استنتاج LLM کاهش می دهد.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله ISO: همپوشانی محاسبات و ارتباطات در داخل دنباله برای استنباط LLM”

ترجمه فارسی مقاله ISO: همپوشانی محاسبات و ارتباطات در داخل دنباله برای استنباط LLM

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله SymTC: یک شبکه ترانسفورماتور همزیستی-سی ان ان برای نمونه تقسیم بندی MRI ستون فقرات کمری

مقاله تشخیص مبتنی بر نمودار سریع برای اطلاعات رنگ ابر نقطه ای

مقاله کالیبراسیون جبران مغناطیسی هوای مغناطیسی در سیستم های ناوبری مغناطیسی با استفاده از شبکه های زمان ثابت مایع

مقاله یادگیری سیاست های ترکیبی برای MPC با کاربرد پرواز هواپیماهای بدون سرنشین در محیط های دینامیک ناشناخته