“مقاله بیوگرافی: مجموعه داده استخراج رابطه نیمه‌نظارتی به همراه PDF فارسی + پادکست صوتی فارسی + ویدیو آموزشی فارسی” به سبد خرید شما اضافه شد. ادامه خرید

“مقاله سکوئنسر: LSTM عمیق برای طبقه بندی تصاویر به همراه PDF فارسی + پادکست صوتی فارسی + ویدیو آموزشی فارسی” به سبد خرید شما اضافه شد. ادامه خرید

مقاله علمی

ترجمه فارسی مقاله ISO: همپوشانی محاسبات و ارتباطات در داخل دنباله برای استنباط LLM

160,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	ISO: Overlap of Computation and Communication within Seqenence For LLM Inference
عنوان مقاله به فارسی	ترجمه فارسی مقاله ISO: همپوشانی محاسبات و ارتباطات در داخل دنباله برای استنباط LLM
نویسندگان	Bin Xiao, Lei Su
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	8
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Distributed, Parallel, and Cluster Computing,Computation and Language,Machine Learning,Performance,محاسبات , محاسبات و زبان , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , عملکرد , محاسبات و خوشه
توضیحات	Submitted 4 September, 2024; originally announced September 2024.
توضیحات به فارسی	ارسال شده در 4 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

In the realm of Large Language Model (LLM) inference, the inherent structure of transformer models coupled with the multi-GPU tensor parallelism strategy leads to a sequential execution of computation and communication. This results in substantial underutilization of computing resources during the communication phase. To mitigate this inefficiency, various techniques have been developed to optimize the use of computational power throughout the communication process. These strategies primarily involve overlapping matrix computations and communications, as well as interleaving micro-batches across different requests. Nonetheless, these approaches either fall short of achieving ideal overlap or impose certain limitations on their application. To overcome these challenges, this paper introduces a novel strategy for computation-communication overlap that operates at the sequence level. This method not only enhances the degree of overlap but also minimizes the constraints on its applicability. Experimental evaluations conducted using 30b/70b models have demonstrated significant improvements in efficiency. Specifically, the proposed technique has been shown to reduce time consumption by approximately 35% on 4090 GPU and by roughly 15% on A800 GPU during the prefill stage of LLM inference.

چکیده به فارسی (ترجمه ماشینی)

در قلمرو استنتاج مدل زبان بزرگ (LLM) ، ساختار ذاتی مدل های ترانسفورماتور همراه با استراتژی موازی تانسور چند GPU منجر به اجرای متوالی محاسبات و ارتباطات می شود.این منجر به عدم استفاده قابل توجهی از منابع محاسباتی در مرحله ارتباطات می شود.برای کاهش این ناکارآمدی ، تکنیک های مختلفی برای بهینه سازی استفاده از قدرت محاسباتی در طول فرآیند ارتباطات ایجاد شده است.این استراتژی ها در درجه اول شامل محاسبات و ارتباطات ماتریس با هم همپوشانی ، و همچنین در بین میکرو دسته ها در درخواست های مختلف است.با این وجود ، این رویکردها یا از دستیابی به همپوشانی ایده آل یا محدودیت های خاصی در کاربرد آنها تحمیل می کنند.برای غلبه بر این چالش ها ، این مقاله یک استراتژی جدید برای همپوشانی محاسبات-ارتباطات که در سطح دنباله کار می کند ، معرفی می کند.این روش نه تنها میزان همپوشانی را افزایش می دهد بلکه محدودیت های کاربرد آن را به حداقل می رساند.ارزیابی های تجربی انجام شده با استفاده از مدلهای 30B/70B پیشرفت های قابل توجهی در کارآیی نشان داده است.به طور خاص ، تکنیک پیشنهادی نشان داده شده است که میزان مصرف زمان را تقریباً 35 ٪ در 4090 GPU و تقریباً 15 ٪ در GPU A800 در مرحله مقدماتی استنتاج LLM کاهش می دهد.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله ISO: همپوشانی محاسبات و ارتباطات در داخل دنباله برای استنباط LLM”

ترجمه فارسی مقاله ISO: همپوشانی محاسبات و ارتباطات در داخل دنباله برای استنباط LLM

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله محافظت از آثار هنری در برابر انتقال سبک عصبی با استفاده از حمله رنگی خصمانه تطابق پذیر

مقاله کنترل جهت پرتو مشترک و تخصیص منابع رادیویی در شبکه های ماهواره ای چند پرتویی LEO پویا

مقاله بهبود تشخیص احساس گفتار مستقل از سخنران با استفاده از سازگاری توزیع مشترک پویا

مقاله تشخیص گفتار بصری چند زبانه با یک مدل واحد با یادگیری با واحدهای گفتار بصری گسسته