,

مقاله یونیکرون: اقتصاد خود درمان LLM در مقیاس

19,000 تومان800,000 تومان

عنوان مقاله به انگلیسی Unicron: Economizing Self-Healing LLM Training at Scale
عنوان مقاله به فارسی مقاله یونیکرون: اقتصاد خود درمان LLM در مقیاس
نویسندگان Tao He, Xue Li, Zhibin Wang, Kun Qian, Jingbo Xu, Wenyuan Yu, Jingren Zhou
زبان مقاله انگلیسی
فرمت مقاله: PDF
تعداد صفحات 15
دسته بندی موضوعات Distributed, Parallel, and Cluster Computing,Machine Learning,محاسبات توزیع شده , موازی و خوشه ای , یادگیری ماشین ,
توضیحات Submitted 29 December, 2023; originally announced January 2024.
توضیحات به فارسی ارسال شده 29 دسامبر 2023 ؛در ابتدا ژانویه 2024 اعلام شد.

چکیده

Training large-scale language models is increasingly critical in various domains, but it is hindered by frequent failures, leading to significant time and economic costs. Current failure recovery methods in cloud-based settings inadequately address the diverse and complex scenarios that arise, focusing narrowly on erasing downtime for individual tasks without considering the overall cost impact on a cluster. We introduce Unicron, a workload manager designed for efficient self-healing in large-scale language model training. Unicron optimizes the training process by minimizing failure-related costs across multiple concurrent tasks within a cluster. Its key features include in-band error detection for real-time error identification without extra overhead, a dynamic cost-aware plan generation mechanism for optimal reconfiguration, and an efficient transition strategy to reduce downtime during state changes. Deployed on a 128-GPU distributed cluster, Unicron demonstrates up to a 1.9x improvement in training efficiency over state-of-the-art methods, significantly reducing failure recovery costs and enhancing the reliability of large-scale language model training.

چکیده به فارسی (ترجمه ماشینی)

آموزش مدلهای زبان در مقیاس بزرگ به طور فزاینده ای در حوزه های مختلف بسیار مهم است ، اما این امر به دلیل خرابی های مکرر مانع می شود و منجر به هزینه های قابل توجه و اقتصادی می شود.روشهای بازیابی خرابی فعلی در تنظیمات مبتنی بر ابر به طور ناکافی به سناریوهای متنوع و پیچیده ای که بوجود می آیند ، می پردازد و با توجه به تأثیر کلی هزینه بر روی یک خوشه ، بر پاک کردن خرابی برای کارهای فردی متمرکز می شود.ما Unicron را معرفی می کنیم ، یک مدیر حجم کار که برای خود درمانی کارآمد در آموزش مدل زبان در مقیاس بزرگ طراحی شده است.یونیکرون با به حداقل رساندن هزینه های مرتبط با شکست در چندین کار همزمان در یک خوشه ، فرایند آموزش را بهینه می کند.ویژگی های اصلی آن شامل تشخیص خطای باند برای شناسایی خطای در زمان واقعی بدون سربار اضافی ، مکانیسم تولید برنامه پویا آگاهی برای تنظیم مجدد بهینه و یک استراتژی انتقال کارآمد برای کاهش خرابی در حین تغییرات حالت است.یونیکرون که در یک خوشه توزیع شده 128 GPU مستقر شده است ، تا حد 1.9 برابر در بهره وری آموزش نسبت به روشهای پیشرفته ، به طور قابل توجهی کاهش هزینه های بازیابی خرابی و افزایش قابلیت اطمینان آموزش مدل زبان در مقیاس بزرگ را نشان می دهد.

توجه کنید این مقاله به زبان انگلیسی است.
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:

09395106248

توجه کنید که شرایط ترجمه به صورت زیر است:
  • قیمت هر صفحه ترجمه در حال حاضر 40 هزار تومان می باشد.
  • تحویل مقاله ترجمه شده به صورت فایل ورد می باشد.
  • زمان تحویل ترجمه مقاله در صورت داشتن تعداد صفحات عادی بین 3 تا 5 روز خواهد بود.
  • کیفیت ترجمه بسیار بالا می باشد. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
  • کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله, سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “مقاله یونیکرون: اقتصاد خود درمان LLM در مقیاس”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا