ترجمه فارسی مقاله بام! درست مثل آن: بالا بردن پارامترهای ساده و کارآمد برای ترکیبی از متخصصان

640,000 تومان

عنوان مقاله به انگلیسی BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts
عنوان مقاله به فارسی ترجمه فارسی مقاله بام! درست مثل آن: بالا بردن پارامترهای ساده و کارآمد برای ترکیبی از متخصصان
نویسندگان Qizhen Zhang, Nikolas Gritsch, Dwaraknath Gnaneshwar, Simon Guo, David Cairuz, Bharat Venkitesh, Jakob Foerster, Phil Blunsom, Sebastian Ruder, Ahmet Ustun, Acyr Locatelli
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 16
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,یادگیری ماشین ,
توضیحات Submitted 16 August, 2024; v1 submitted 15 August, 2024; originally announced August 2024.
توضیحات به فارسی ارائه شده 16 اوت 2024 ؛V1 ارسال شده در 15 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

The Mixture of Experts (MoE) framework has become a popular architecture for large language models due to its superior performance over dense models. However, training MoEs from scratch in a large-scale regime is prohibitively expensive. Existing methods mitigate this by pre-training multiple dense expert models independently and using them to initialize an MoE. This is done by using experts’ feed-forward network (FFN) to initialize the MoE’s experts while merging other parameters. However, this method limits the reuse of dense model parameters to only the FFN layers, thereby constraining the advantages when “upcycling” these models into MoEs. We propose BAM (Branch-Attend-Mix), a simple yet effective method that addresses this shortcoming. BAM makes full use of specialized dense models by not only using their FFN to initialize the MoE layers but also leveraging experts’ attention parameters fully by initializing them into a soft-variant of Mixture of Attention (MoA) layers. We explore two methods for upcycling attention parameters: 1) initializing separate attention experts from dense models including all attention parameters for the best model performance; and 2) sharing key and value parameters across all experts to facilitate for better inference efficiency. To further improve efficiency, we adopt a parallel attention transformer architecture to MoEs, which allows the attention experts and FFN experts to be computed concurrently. Our experiments on seed models ranging from 590 million to 2 billion parameters demonstrate that BAM surpasses baselines in both perplexity and downstream task performance, within the same computational and data constraints.

چکیده به فارسی (ترجمه ماشینی)

چارچوب ترکیبی از کارشناسان (MOE) به دلیل عملکرد برتر نسبت به مدل های متراکم ، به یک معماری محبوب برای مدل های بزرگ زبان تبدیل شده است.با این حال ، آموزش MOE از ابتدا در یک رژیم در مقیاس بزرگ بسیار گران است.روشهای موجود این کار را با پیش کشیدن چندین مدل خبره متراکم به طور مستقل و استفاده از آنها برای اولیه سازی MOE کاهش می دهد.این کار با استفاده از شبکه تغذیه رو به جلو متخصصان (FFN) برای اولیه سازی متخصصان MOE در هنگام ادغام سایر پارامترها انجام می شود.با این حال ، این روش استفاده مجدد از پارامترهای مدل متراکم را فقط به لایه های FFN محدود می کند و از این طریق مزایای استفاده از این مدل ها را به MOE محدود می کند.ما BAM (Branch-Attend Mix) را پیشنهاد می کنیم ، یک روش ساده و در عین حال مؤثر که به این کاستی می پردازد.BAM نه تنها با استفاده از FFN خود برای اولیه سازی لایه های MOE ، بلکه پارامترهای توجه متخصصان را به طور کامل با شروع آنها به یک متفاوت از لایه های مخلوط توجه (MOA) استفاده می کند ، از مدل های متراکم تخصصی استفاده می کند.ما دو روش را برای تغییر شکل پارامترهای توجه بررسی می کنیم: 1) اولیه سازی کارشناسان توجه جداگانه از مدل های متراکم از جمله تمام پارامترهای توجه برای بهترین عملکرد مدل.و 2) به اشتراک گذاری پارامترهای کلید و ارزش در همه متخصصان برای تسهیل راندمان استنباط بهتر.برای بهبود بیشتر کارایی ، ما یک معماری ترانسفورماتور توجه موازی را به MOE ها اتخاذ می کنیم ، که به متخصصان توجه و کارشناسان FFN اجازه می دهد تا به طور همزمان محاسبه شوند.آزمایشات ما در مورد مدل های بذر از 590 میلیون تا 2 میلیارد پارامتر نشان می دهد که BAM در همان محدودیت های محاسباتی و داده ها از خطوطی در هر دو عملکرد و عملکرد پایین دست پیشی می گیرد.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله بام! درست مثل آن: بالا بردن پارامترهای ساده و کارآمد برای ترکیبی از متخصصان”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا