,

ترجمه فارسی مقاله مقیاس‌بندی فرکانس پردازنده گرافیکی (GPU) آگاه از SLO برای سرویس استنتاج LLM با مصرف انرژی کارآمد

19,000 تومان560,000 تومان

شناسه محصول: نامعلوم دسته: ,
عنوان مقاله به انگلیسی SLO-aware GPU Frequency Scaling for Energy Efficient LLM Inference Serving
عنوان مقاله به فارسی ترجمه فارسی مقاله مقیاس‌بندی فرکانس پردازنده گرافیکی (GPU) آگاه از SLO برای سرویس استنتاج LLM با مصرف انرژی کارآمد
نویسندگان Andreas Kosmas Kakolyris, Dimosthenis Masouros, Petros Vavaroutsos, Sotirios Xydis, Dimitrios Soudris
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 14
دسته بندی موضوعات Distributed, Parallel, and Cluster Computing,Artificial Intelligence,Hardware Architecture,Machine Learning,محاسبات توزیع شده , موازی و خوشه ای , هوش مصنوعی , معماری سخت افزار , یادگیری ماشین
توضیحات Submitted 5 August, 2024; originally announced August 2024.
توضیحات به فارسی ارسال شده در 5 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 560,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

As Large Language Models (LLMs) gain traction, their reliance on power-hungry GPUs places ever-increasing energy demands, raising environmental and monetary concerns. Inference dominates LLM workloads, presenting a critical challenge for providers: minimizing energy costs under Service-Level Objectives (SLOs) that ensure optimal user experience. In this paper, we present textit{throttLL’eM}, a framework that reduces energy consumption while meeting SLOs through the use of instance and GPU frequency scaling. textit{throttLL’eM} features mechanisms that project future KV cache usage and batch size. Leveraging a Machine-Learning (ML) model that receives these projections as inputs, textit{throttLL’eM} manages performance at the iteration level to satisfy SLOs with reduced frequencies and instance sizes. We show that the proposed ML model achieves $R^2$ scores greater than 0.97 and miss-predicts performance by less than 1 iteration per second on average. Experimental results on LLM inference traces show that textit{throttLL’eM} achieves up to 43.8% lower energy consumption and an energy efficiency improvement of at least $1.71times$ under SLOs, when compared to NVIDIA’s Triton server.

چکیده به فارسی (ترجمه ماشینی)

از آنجا که مدل های بزرگ زبان (LLMS) به دست می آیند ، اعتماد به نفس آنها به GPU های گرسنه قدرت ، تقاضای انرژی روزافزون را ایجاد می کند و نگرانی های زیست محیطی و پولی را افزایش می دهد.استنتاج حاکم بر بار کار LLM است و یک چالش مهم برای ارائه دهندگان ارائه می دهد: به حداقل رساندن هزینه های انرژی تحت اهداف سطح خدمات (SLO) که تجربه کاربر بهینه را تضمین می کند.در این مقاله ، ما textit {throttll’em} را ارائه می دهیم ، چارچوبی که مصرف انرژی را در حالی که با استفاده از SLO ها با استفاده از مقیاس فرکانس نمونه و GPU ، کاهش می یابد ، کاهش می دهد. textit {throttll’em} مکانیزم هایی را نشان می دهد که در آینده استفاده از حافظه پنهان KV و اندازه دسته ای را نشان می دهد.با استفاده از یک مدل یادگیری ماشین (ML) که این پیش بینی ها را به عنوان ورودی دریافت می کند ، textit {throttll’em} عملکرد را در سطح تکرار مدیریت می کند تا SLO ها را با کاهش فرکانس ها و اندازه های نمونه برآورده کند.ما نشان می دهیم که مدل ML پیشنهادی نمرات R^2 $ بیشتر از 0.97 و عملکرد پیش نویس های از دست می دهد و به طور متوسط ​​کمتر از 1 تکرار در ثانیه.نتایج تجربی در مورد آثار استنتاج LLM نشان می دهد که textit {throttll’em} تا 43.8 ٪ مصرف انرژی پایین تر و بهبود بهره وری انرژی حداقل 1.71 $ $ در زیر SLO ها ، در مقایسه با سرور Triton NVIDIA ، به دست می آید.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, سفارش ترجمه فارسی مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله مقیاس‌بندی فرکانس پردازنده گرافیکی (GPU) آگاه از SLO برای سرویس استنتاج LLM با مصرف انرژی کارآمد”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا