| عنوان مقاله به انگلیسی | Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله کراکن: ترانسفورماتورهای ذاتی موازی برای استنتاج کارآمد چند دستگاه | ||||||||
| نویسندگان | Rohan Baskar Prabhakar, Hengrui Zhang, David Wentzlaff | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 17 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Distributed, Parallel, and Cluster Computing,یادگیری ماشین , توزیع , موازی و محاسبات خوشه ای , | ||||||||
| توضیحات | Submitted 16 August, 2024; v1 submitted 14 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | ارائه شده 16 اوت 2024 ؛V1 ارسال شده در 14 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Large Transformer networks are increasingly used in settings where low inference latency can improve the end-user experience and enable new applications. However, autoregressive inference is resource intensive and requires parallelism for efficiency. Parallelism introduces collective communication that is both expensive and represents a phase when hardware resources are underutilized. Towards mitigating this, Kraken is an evolution of the standard Transformer architecture that is designed to complement existing tensor parallelism schemes for efficient inference on multi-device systems. By introducing a fixed degree of intra-layer model parallelism, the architecture allows collective operations to be overlapped with compute, decreasing latency and increasing hardware utilization. When trained on OpenWebText, Kraken models reach a similar perplexity as standard Transformers while also preserving their language modeling capabilities when evaluated on the SuperGLUE benchmark. Importantly, when tested on multi-GPU systems using TensorRT-LLM engines, Kraken speeds up Time To First Token by a mean of 35.6% across a range of model sizes, context lengths, and degrees of tensor parallelism.
چکیده به فارسی (ترجمه ماشینی)
شبکه های ترانسفورماتور بزرگ به طور فزاینده ای در تنظیماتی استفاده می شوند که تأخیر استنتاج کم می تواند تجربه کاربر نهایی را بهبود بخشد و برنامه های جدید را فعال کند.با این حال ، استنتاج خودروگرایی منابع فشرده است و برای کارآیی به موازی نیاز دارد.موازی سازی ارتباطات جمعی را معرفی می کند که هم گران است و هم فاز را نشان می دهد که منابع سخت افزاری مورد استفاده قرار نمی گیرند.به سمت کاهش این امر ، Kraken تکامل معماری استاندارد ترانسفورماتور است که برای تکمیل طرح های موازی با تانسور موجود برای استنباط کارآمد در سیستم های چند دستگاه طراحی شده است.با معرفی یک درجه ثابت از موازی سازی مدل داخل لایه ، معماری اجازه می دهد تا عملیات جمعی با محاسبات ، کاهش تأخیر و افزایش استفاده از سخت افزار همپوشانی داشته باشد.هنگامی که در OpenWebText آموزش دیده می شود ، مدل های Kraken به عنوان ترانسفورماتورهای استاندارد به شدت مشابه می رسند و در عین حال قابلیت های مدل سازی زبان خود را هنگام ارزیابی در معیار Superglue نیز حفظ می کنند.نکته مهم ، هنگامی که در سیستم های چند GPU با استفاده از موتورهای Tensorrt-LLM آزمایش می شود ، Kraken زمان را به میانگین 35.6 ٪ در طیف وسیعی از اندازه های مدل ، طول زمینه و درجه موازی تانسور سرعت می بخشد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.