ترجمه فارسی مقاله HMoE: ترکیبی ناهمگن از کارشناسان برای مدل‌سازی زبان

220,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	HMoE: Heterogeneous Mixture of Experts for Language Modeling
عنوان مقاله به فارسی	ترجمه فارسی مقاله HMoE: ترکیبی ناهمگن از کارشناسان برای مدل‌سازی زبان
نویسندگان	An Wang, Xingwu Sun, Ruobing Xie, Shuaipeng Li, Jiaqi Zhu, Zhen Yang, Pinxue Zhao, J. N. Han, Zhanhui Kang, Di Wang, Naoaki Okazaki, Cheng-zhong Xu
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	11
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Computation and Language,Machine Learning,محاسبه و زبان , یادگیری ماشین ,
توضیحات	Submitted 20 August, 2024; originally announced August 2024.
توضیحات به فارسی	20 اوت 2024 ارسال شد.در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Mixture of Experts (MoE) offers remarkable performance and computational efficiency by selectively activating subsets of model parameters. Traditionally, MoE models use homogeneous experts, each with identical capacity. However, varying complexity in input data necessitates experts with diverse capabilities, while homogeneous MoE hinders effective expert specialization and efficient parameter utilization. In this study, we propose a novel Heterogeneous Mixture of Experts (HMoE), where experts differ in size and thus possess diverse capacities. This heterogeneity allows for more specialized experts to handle varying token complexities more effectively. To address the imbalance in expert activation, we propose a novel training objective that encourages the frequent activation of smaller experts, enhancing computational efficiency and parameter utilization. Extensive experiments demonstrate that HMoE achieves lower loss with fewer activated parameters and outperforms conventional homogeneous MoE models on various pre-training evaluation benchmarks. Codes will be released upon acceptance.

چکیده به فارسی (ترجمه ماشینی)

مخلوط متخصصان (MOE) با فعال کردن انتخاب زیر مجموعه های پارامترهای مدل ، عملکرد و راندمان محاسباتی قابل توجهی را ارائه می دهد.به طور سنتی ، مدل های MOE از متخصصان همگن استفاده می کنند که هر یک از آنها ظرفیت یکسان دارند.با این حال ، پیچیدگی متغیر در داده های ورودی به متخصصان دارای قابلیت های متنوع نیاز دارد ، در حالی که MOE همگن مانع تخصص تخصصی مؤثر و استفاده از پارامتر کارآمد می شود.در این مطالعه ، ما یک مخلوط ناهمگن جدید از متخصصان (HMOE) را پیشنهاد می کنیم ، که در آن متخصصان از نظر اندازه متفاوت هستند و بنابراین ظرفیت های متنوعی دارند.این ناهمگونی به متخصصان تخصصی تر اجازه می دهد تا پیچیدگی های مختلف را به طور مؤثر کنترل کنند.برای پرداختن به عدم تعادل در فعال سازی متخصص ، ما یک هدف آموزش جدید را پیشنهاد می کنیم که فعال سازی مکرر متخصصان کوچکتر را تشویق می کند ، باعث افزایش کارایی محاسباتی و استفاده از پارامترها می شود.آزمایش های گسترده نشان می دهد که HMOE با پارامترهای فعال شده کمتری دست به دست می دهد و از مدل های MOE همگن معمولی در معیارهای مختلف ارزیابی قبل از آموزش بهتر عمل می کند.کدها پس از پذیرش منتشر می شوند.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله HMoE: ترکیبی ناهمگن از کارشناسان برای مدل‌سازی زبان”

ترجمه فارسی مقاله HMoE: ترکیبی ناهمگن از کارشناسان برای مدل‌سازی زبان

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله MITS-GAN: حفاظت از تصویربرداری پزشکی در برابر دستکاری شبکه‌های متخاصم مولد

مقاله تقسیم بندی CT کبد از طریق رمزگذاری مبتنی بر PVT و رمزگشایی تصفیه شده

مقاله طراحی الگوی سیگنال مرجع شانه برای ارتباطات و سنجش یکپارچه

مقاله یک معماری چند منطقه ای برای بهینه سازی شبکه های توزیع مبتنی بر بازخورد در زمان واقعی