| عنوان مقاله به انگلیسی | Unicron: Economizing Self-Healing LLM Training at Scale |
| عنوان مقاله به فارسی | مقاله یونیکرون: اقتصاد خود درمان LLM در مقیاس |
| نویسندگان | Tao He, Xue Li, Zhibin Wang, Kun Qian, Jingbo Xu, Wenyuan Yu, Jingren Zhou |
| زبان مقاله | انگلیسی |
| فرمت مقاله: | |
| تعداد صفحات | 15 |
| دسته بندی موضوعات | Distributed, Parallel, and Cluster Computing,Machine Learning,محاسبات توزیع شده , موازی و خوشه ای , یادگیری ماشین , |
| توضیحات | Submitted 29 December, 2023; originally announced January 2024. |
| توضیحات به فارسی | ارسال شده 29 دسامبر 2023 ؛در ابتدا ژانویه 2024 اعلام شد. |
چکیده
Training large-scale language models is increasingly critical in various domains, but it is hindered by frequent failures, leading to significant time and economic costs. Current failure recovery methods in cloud-based settings inadequately address the diverse and complex scenarios that arise, focusing narrowly on erasing downtime for individual tasks without considering the overall cost impact on a cluster. We introduce Unicron, a workload manager designed for efficient self-healing in large-scale language model training. Unicron optimizes the training process by minimizing failure-related costs across multiple concurrent tasks within a cluster. Its key features include in-band error detection for real-time error identification without extra overhead, a dynamic cost-aware plan generation mechanism for optimal reconfiguration, and an efficient transition strategy to reduce downtime during state changes. Deployed on a 128-GPU distributed cluster, Unicron demonstrates up to a 1.9x improvement in training efficiency over state-of-the-art methods, significantly reducing failure recovery costs and enhancing the reliability of large-scale language model training.
چکیده به فارسی (ترجمه ماشینی)
آموزش مدلهای زبان در مقیاس بزرگ به طور فزاینده ای در حوزه های مختلف بسیار مهم است ، اما این امر به دلیل خرابی های مکرر مانع می شود و منجر به هزینه های قابل توجه و اقتصادی می شود.روشهای بازیابی خرابی فعلی در تنظیمات مبتنی بر ابر به طور ناکافی به سناریوهای متنوع و پیچیده ای که بوجود می آیند ، می پردازد و با توجه به تأثیر کلی هزینه بر روی یک خوشه ، بر پاک کردن خرابی برای کارهای فردی متمرکز می شود.ما Unicron را معرفی می کنیم ، یک مدیر حجم کار که برای خود درمانی کارآمد در آموزش مدل زبان در مقیاس بزرگ طراحی شده است.یونیکرون با به حداقل رساندن هزینه های مرتبط با شکست در چندین کار همزمان در یک خوشه ، فرایند آموزش را بهینه می کند.ویژگی های اصلی آن شامل تشخیص خطای باند برای شناسایی خطای در زمان واقعی بدون سربار اضافی ، مکانیسم تولید برنامه پویا آگاهی برای تنظیم مجدد بهینه و یک استراتژی انتقال کارآمد برای کاهش خرابی در حین تغییرات حالت است.یونیکرون که در یک خوشه توزیع شده 128 GPU مستقر شده است ، تا حد 1.9 برابر در بهره وری آموزش نسبت به روشهای پیشرفته ، به طور قابل توجهی کاهش هزینه های بازیابی خرابی و افزایش قابلیت اطمینان آموزش مدل زبان در مقیاس بزرگ را نشان می دهد.
| توجه کنید این مقاله به زبان انگلیسی است. |
|
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|


نقد و بررسیها
هنوز بررسیای ثبت نشده است.