| عنوان مقاله به انگلیسی | HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله خانه: سلسله مراتب متخصصان چند دروازهای برای یادگیری چندوظیفهای در کوایشو |
| نویسندگان | Xu Wang, Jiangxia Cao, Zhiyi Fu, Kun Gai, Guorui Zhou |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 10 |
| دسته بندی موضوعات | Information Retrieval,Machine Learning,بازیابی اطلاعات , یادگیری ماشین , |
| توضیحات | Submitted 10 August, 2024; originally announced August 2024. , Comments: Work in progress |
| توضیحات به فارسی | ارسال شده 10 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: کار در حال انجام |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 400,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
In this paper, we present the practical problems and the lessons learned at short-video services from Kuaishou. In industry, a widely-used multi-task framework is the Mixture-of-Experts (MoE) paradigm, which always introduces some shared and specific experts for each task and then uses gate networks to measure related experts’ contributions. Although the MoE achieves remarkable improvements, we still observe three anomalies that seriously affect model performances in our iteration: (1) Expert Collapse: We found that experts’ output distributions are significantly different, and some experts have over 90% zero activations with ReLU, making it hard for gate networks to assign fair weights to balance experts. (2) Expert Degradation: Ideally, the shared-expert aims to provide predictive information for all tasks simultaneously. Nevertheless, we find that some shared-experts are occupied by only one task, which indicates that shared-experts lost their ability but degenerated into some specific-experts. (3) Expert Underfitting: In our services, we have dozens of behavior tasks that need to be predicted, but we find that some data-sparse prediction tasks tend to ignore their specific-experts and assign large weights to shared-experts. The reason might be that the shared-experts can perceive more gradient updates and knowledge from dense tasks, while specific-experts easily fall into underfitting due to their sparse behaviors. Motivated by those observations, we propose HoME to achieve a simple, efficient and balanced MoE system for multi-task learning.
چکیده به فارسی (ترجمه ماشینی)
در این مقاله ، ما مشکلات عملی و درسهای آموخته شده در خدمات کوتاه مدت از Kuaishou را ارائه می دهیم.در صنعت ، یک چارچوب چند کاره بسیار مورد استفاده پارادایم مخلوط کن (MOE) است که همیشه برخی از متخصصان مشترک و خاص را برای هر کار معرفی می کند و سپس از شبکه های دروازه برای اندازه گیری سهم متخصصان مرتبط استفاده می کند.اگرچه MOE به پیشرفتهای چشمگیری دست می یابد ، ما هنوز سه ناهنجاری را مشاهده می کنیم که به طور جدی عملکرد مدل را در تکرار ما تأثیر می گذارد: (1) فروپاشی متخصص: ما دریافتیم که توزیع خروجی متخصصان به طور قابل توجهی متفاوت است ، و برخی از متخصصان بیش از 90 ٪ فعال سازی صفر با RELU دارند ،این کار را برای شبکه های دروازه سخت می کند که وزن های منصفانه ای را برای تعادل کارشناسان اختصاص دهند.(2) تخریب تخصصی: در حالت ایده آل ، Expert مشترک هدف ارائه اطلاعات پیش بینی کننده برای همه کارها به طور همزمان است.با این وجود ، ما می دانیم که برخی از متخصصان مشترک تنها با یک کار اشغال شده اند ، که نشان می دهد که متخصصان مشترک توانایی خود را از دست داده اند اما به برخی از متخصصان خاص انحطاط می شوند.(3) زیربنای متخصص: در خدمات ما ، ما ده ها وظیفه رفتاری داریم که باید پیش بینی شوند ، اما می یابیم که برخی از کارهای پیش بینی داده های مختلف تمایل دارند که از متخصصان خاص خود چشم پوشی کنند و وزنهای زیادی را به متخصصان مشترک اختصاص دهند.دلیل این امر ممکن است این باشد که متخصصان مشترک می توانند به روزرسانی ها و دانش شیب بیشتری را از کارهای متراکم درک کنند ، در حالی که متخصصان خاص به دلیل رفتارهای پراکنده به راحتی در زیر جای خود قرار می گیرند.با انگیزه این مشاهدات ، ما برای دستیابی به یک سیستم MOE ساده ، کارآمد و متعادل برای یادگیری چند کاره ، خانه پیشنهاد می کنیم.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.