| عنوان مقاله به انگلیسی | HMoE: Heterogeneous Mixture of Experts for Language Modeling | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله HMoE: ترکیبی ناهمگن از کارشناسان برای مدلسازی زبان | ||||||||
| نویسندگان | An Wang, Xingwu Sun, Ruobing Xie, Shuaipeng Li, Jiaqi Zhu, Zhen Yang, Pinxue Zhao, J. N. Han, Zhanhui Kang, Di Wang, Naoaki Okazaki, Cheng-zhong Xu | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 11 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Computation and Language,Machine Learning,محاسبه و زبان , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 20 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | 20 اوت 2024 ارسال شد.در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Mixture of Experts (MoE) offers remarkable performance and computational efficiency by selectively activating subsets of model parameters. Traditionally, MoE models use homogeneous experts, each with identical capacity. However, varying complexity in input data necessitates experts with diverse capabilities, while homogeneous MoE hinders effective expert specialization and efficient parameter utilization. In this study, we propose a novel Heterogeneous Mixture of Experts (HMoE), where experts differ in size and thus possess diverse capacities. This heterogeneity allows for more specialized experts to handle varying token complexities more effectively. To address the imbalance in expert activation, we propose a novel training objective that encourages the frequent activation of smaller experts, enhancing computational efficiency and parameter utilization. Extensive experiments demonstrate that HMoE achieves lower loss with fewer activated parameters and outperforms conventional homogeneous MoE models on various pre-training evaluation benchmarks. Codes will be released upon acceptance.
چکیده به فارسی (ترجمه ماشینی)
مخلوط متخصصان (MOE) با فعال کردن انتخاب زیر مجموعه های پارامترهای مدل ، عملکرد و راندمان محاسباتی قابل توجهی را ارائه می دهد.به طور سنتی ، مدل های MOE از متخصصان همگن استفاده می کنند که هر یک از آنها ظرفیت یکسان دارند.با این حال ، پیچیدگی متغیر در داده های ورودی به متخصصان دارای قابلیت های متنوع نیاز دارد ، در حالی که MOE همگن مانع تخصص تخصصی مؤثر و استفاده از پارامتر کارآمد می شود.در این مطالعه ، ما یک مخلوط ناهمگن جدید از متخصصان (HMOE) را پیشنهاد می کنیم ، که در آن متخصصان از نظر اندازه متفاوت هستند و بنابراین ظرفیت های متنوعی دارند.این ناهمگونی به متخصصان تخصصی تر اجازه می دهد تا پیچیدگی های مختلف را به طور مؤثر کنترل کنند.برای پرداختن به عدم تعادل در فعال سازی متخصص ، ما یک هدف آموزش جدید را پیشنهاد می کنیم که فعال سازی مکرر متخصصان کوچکتر را تشویق می کند ، باعث افزایش کارایی محاسباتی و استفاده از پارامترها می شود.آزمایش های گسترده نشان می دهد که HMOE با پارامترهای فعال شده کمتری دست به دست می دهد و از مدل های MOE همگن معمولی در معیارهای مختلف ارزیابی قبل از آموزش بهتر عمل می کند.کدها پس از پذیرش منتشر می شوند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.