,

ترجمه فارسی مقاله مقیاس‌بندی محاسبات یادگیری عمیق روی پردازنده هوشمند متصل بین هسته‌ای

19,000 تومان680,000 تومان

شناسه محصول: نامعلوم دسته: ,
عنوان مقاله به انگلیسی Scaling Deep Learning Computation over the Inter-Core Connected Intelligence Processor
عنوان مقاله به فارسی ترجمه فارسی مقاله مقیاس‌بندی محاسبات یادگیری عمیق روی پردازنده هوشمند متصل بین هسته‌ای
نویسندگان Yiqi Liu, Yuqi Xue, Yu Cheng, Lingxiao Ma, Ziming Miao, Jilong Xue, Jian Huang
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 17
دسته بندی موضوعات Distributed, Parallel, and Cluster Computing,Machine Learning,محاسبات توزیع شده , موازی و خوشه ای , یادگیری ماشین ,
توضیحات Submitted 8 August, 2024; originally announced August 2024. , Comments: This paper is accepted at The 30th ACM Symposium on Operating Systems Principles (SOSP’24)
توضیحات به فارسی ارسال شده در 8 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: این مقاله در سی امین سمپوزیوم ACM در مورد اصول سیستم عامل پذیرفته شده است (SOSP’24)

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 680,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

As AI chips incorporate numerous parallelized cores to scale deep learning (DL) computing, inter-core communication is enabled recently by employing high-bandwidth and low-latency interconnect links on the chip (e.g., Graphcore IPU). It allows each core to directly access the fast scratchpad memory in other cores, which enables new parallel computing paradigms. However, without proper support for the scalable inter-core connections in current DL compilers, it is hard for developers to exploit the benefits of this new architecture. We present T10, the first DL compiler to exploit the inter-core communication bandwidth and distributed on-chip memory on AI chips. To formulate the computation and communication patterns of tensor operators in this new architecture, T10 introduces a distributed tensor abstraction rTensor. T10 maps a DNN model to execution plans with a generalized compute-shift pattern, by partitioning DNN computation into sub-operators and mapping them to cores, so that the cores can exchange data following predictable patterns. T10 makes globally optimized trade-offs between on-chip memory consumption and inter-core communication overhead, selects the best execution plan from a vast optimization space, and alleviates unnecessary inter-core communications. Our evaluation with a real inter-core connected AI chip, the Graphcore IPU, shows up to 3.3$times$ performance improvement, and scalability support for larger models, compared to state-of-the-art DL compilers and vendor libraries.

چکیده به فارسی (ترجمه ماشینی)

از آنجا که تراشه های هوش مصنوعی هسته های موازی متعددی را برای محاسبات یادگیری عمیق (DL) درج می کنند ، ارتباطات بین هسته ای اخیراً با استفاده از پیوندهای اتصال باند بالا و کم تأخیر در تراشه (به عنوان مثال ، IPU Graphcore) فعال می شود.این امکان را به هر هسته می دهد تا به طور مستقیم به حافظه Scratchpad سریع در هسته های دیگر دسترسی پیدا کند ، که پارادایم های محاسبات موازی جدید را امکان پذیر می کند.با این حال ، بدون پشتیبانی مناسب از اتصالات بین هسته ای مقیاس پذیر در کامپایلرهای DL فعلی ، برای توسعه دهندگان دشوار است که از مزایای این معماری جدید سوء استفاده کنند.ما T10 ، اولین کامپایلر DL را برای بهره برداری از پهنای باند ارتباطی بین هسته و حافظه تراشه در تراشه های AI توزیع می کنیم.برای تدوین الگوهای محاسبات و ارتباطی اپراتورهای تانسور در این معماری جدید ، T10 یک RTENSOR انتزاع تانسور توزیع شده را معرفی می کند.T10 یک مدل DNN را برای برنامه های اجرا با یک الگوی محاسبات تعمیم یافته ، با تقسیم محاسبات DNN به زیر اپراتورها و نقشه برداری از آنها به هسته نقشه می کند تا هسته ها بتوانند داده ها را به دنبال الگوهای قابل پیش بینی تبادل کنند.T10 تجارت بهینه سازی شده در سطح جهانی بین مصرف حافظه روی تراشه و ارتباطات بین هسته ای را ایجاد می کند ، بهترین برنامه اجرای را از یک فضای بهینه سازی گسترده انتخاب می کند و ارتباطات غیر ضروری بین هسته ای را کاهش می دهد.ارزیابی ما با یک تراشه AI متصل به هسته واقعی ، IPU Graphcore ، در مقایسه با کامپایلرهای پیشرفته DL و کتابخانه های فروشنده ، حداکثر 3.3 $ برابر $ بهبود عملکرد و پشتیبانی از مقیاس پذیری را نشان می دهد.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, سفارش ترجمه فارسی مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله مقیاس‌بندی محاسبات یادگیری عمیق روی پردازنده هوشمند متصل بین هسته‌ای”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا