| عنوان مقاله به انگلیسی | SLO-aware GPU Frequency Scaling for Energy Efficient LLM Inference Serving |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله مقیاسبندی فرکانس پردازنده گرافیکی (GPU) آگاه از SLO برای سرویس استنتاج LLM با مصرف انرژی کارآمد |
| نویسندگان | Andreas Kosmas Kakolyris, Dimosthenis Masouros, Petros Vavaroutsos, Sotirios Xydis, Dimitrios Soudris |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 14 |
| دسته بندی موضوعات | Distributed, Parallel, and Cluster Computing,Artificial Intelligence,Hardware Architecture,Machine Learning,محاسبات توزیع شده , موازی و خوشه ای , هوش مصنوعی , معماری سخت افزار , یادگیری ماشین |
| توضیحات | Submitted 5 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده در 5 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 560,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
As Large Language Models (LLMs) gain traction, their reliance on power-hungry GPUs places ever-increasing energy demands, raising environmental and monetary concerns. Inference dominates LLM workloads, presenting a critical challenge for providers: minimizing energy costs under Service-Level Objectives (SLOs) that ensure optimal user experience. In this paper, we present textit{throttLL’eM}, a framework that reduces energy consumption while meeting SLOs through the use of instance and GPU frequency scaling. textit{throttLL’eM} features mechanisms that project future KV cache usage and batch size. Leveraging a Machine-Learning (ML) model that receives these projections as inputs, textit{throttLL’eM} manages performance at the iteration level to satisfy SLOs with reduced frequencies and instance sizes. We show that the proposed ML model achieves $R^2$ scores greater than 0.97 and miss-predicts performance by less than 1 iteration per second on average. Experimental results on LLM inference traces show that textit{throttLL’eM} achieves up to 43.8% lower energy consumption and an energy efficiency improvement of at least $1.71times$ under SLOs, when compared to NVIDIA’s Triton server.
چکیده به فارسی (ترجمه ماشینی)
از آنجا که مدل های بزرگ زبان (LLMS) به دست می آیند ، اعتماد به نفس آنها به GPU های گرسنه قدرت ، تقاضای انرژی روزافزون را ایجاد می کند و نگرانی های زیست محیطی و پولی را افزایش می دهد.استنتاج حاکم بر بار کار LLM است و یک چالش مهم برای ارائه دهندگان ارائه می دهد: به حداقل رساندن هزینه های انرژی تحت اهداف سطح خدمات (SLO) که تجربه کاربر بهینه را تضمین می کند.در این مقاله ، ما textit {throttll’em} را ارائه می دهیم ، چارچوبی که مصرف انرژی را در حالی که با استفاده از SLO ها با استفاده از مقیاس فرکانس نمونه و GPU ، کاهش می یابد ، کاهش می دهد. textit {throttll’em} مکانیزم هایی را نشان می دهد که در آینده استفاده از حافظه پنهان KV و اندازه دسته ای را نشان می دهد.با استفاده از یک مدل یادگیری ماشین (ML) که این پیش بینی ها را به عنوان ورودی دریافت می کند ، textit {throttll’em} عملکرد را در سطح تکرار مدیریت می کند تا SLO ها را با کاهش فرکانس ها و اندازه های نمونه برآورده کند.ما نشان می دهیم که مدل ML پیشنهادی نمرات R^2 $ بیشتر از 0.97 و عملکرد پیش نویس های از دست می دهد و به طور متوسط کمتر از 1 تکرار در ثانیه.نتایج تجربی در مورد آثار استنتاج LLM نشان می دهد که textit {throttll’em} تا 43.8 ٪ مصرف انرژی پایین تر و بهبود بهره وری انرژی حداقل 1.71 $ $ در زیر SLO ها ، در مقایسه با سرور Triton NVIDIA ، به دست می آید.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.