| عنوان مقاله به انگلیسی | MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله MoMa: آموزش مقدماتی کارآمد برای فیوژن زودهنگام با ترکیبی از متخصصان آگاه به روشها |
| نویسندگان | Xi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Ghosh, Luke Zettlemoyer, Armen Aghajanyan |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 18 |
| دسته بندی موضوعات | Artificial Intelligence,Machine Learning,هوش مصنوعی , یادگیری ماشین , |
| توضیحات | Submitted 12 August, 2024; v1 submitted 31 July, 2024; originally announced July 2024. , Comments: v2 -> update related work section v3 -> fix spelling |
| توضیحات به فارسی | ارائه شده 12 اوت 2024 ؛V1 ارسال شده 31 ژوئیه 2024 ؛در ابتدا ژوئیه 2024 اعلام شد. ، نظرات: v2 -> بخش کار مرتبط با بروزرسانی v3 -> رفع املا |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 720,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
We introduce MoMa, a novel modality-aware mixture-of-experts (MoE) architecture designed for pre-training mixed-modal, early-fusion language models. MoMa processes images and text in arbitrary sequences by dividing expert modules into modality-specific groups. These groups exclusively process designated tokens while employing learned routing within each group to maintain semantically informed adaptivity. Our empirical results reveal substantial pre-training efficiency gains through this modality-specific parameter allocation. Under a 1-trillion-token training budget, the MoMa 1.4B model, featuring 4 text experts and 4 image experts, achieves impressive FLOPs savings: 3.7x overall, with 2.6x for text and 5.2x for image processing compared to a compute-equivalent dense baseline, measured by pre-training loss. This outperforms the standard expert-choice MoE with 8 mixed-modal experts, which achieves 3x overall FLOPs savings (3x for text, 2.8x for image). Combining MoMa with mixture-of-depths (MoD) further improves pre-training FLOPs savings to 4.2x overall (text: 3.4x, image: 5.3x), although this combination hurts performance in causal inference due to increased sensitivity to router accuracy. These results demonstrate MoMa’s potential to significantly advance the efficiency of mixed-modal, early-fusion language model pre-training, paving the way for more resource-efficient and capable multimodal AI systems.
چکیده به فارسی (ترجمه ماشینی)
ما MOMA را معرفی می کنیم ، یک معماری جدید آگاه از آگاهی از کارآزمایی (MOE) که برای مدلهای قبل از آموزش و روشهای مختلط و فیوژن زودهنگام طراحی شده است.MOMA با تقسیم ماژول های متخصص به گروه های خاص ، تصاویر و متن را در توالی های دلخواه پردازش می کند.این گروه ها به طور انحصاری با استفاده از مسیریابی آموخته شده در هر گروه ، نشانه های تعیین شده را پردازش می کنند تا سازگاری با آگاهانه را حفظ کنند.نتایج تجربی ما نشان می دهد که از طریق این تخصیص پارامترهای خاص روش ، سودهای قابل توجهی قبل از آموزش را نشان می دهد.تحت یک بودجه آموزش 1 تریلیون-تکن ، مدل MOMA 1.4B ، با 4 متخصص متن و 4 متخصص تصویر ، به پس انداز چشمگیر فلاپ می رسد: 3.7x به طور کلی ، با 2.6 برابر برای متن و 5.2x برای پردازش تصویر در مقایسه با یک محاسباتپایه متراکم معادل ، با از دست دادن قبل از ترحم اندازه گیری می شود.این بهتر از MOE استاندارد انتخابی MOE با 8 متخصص مخلوط مخلوط ، که به 3 برابر پس انداز FLOPS می رسد (3 برابر برای متن ، 2.8 برابر برای تصویر).ترکیب MOMA با عمق مخلوط (MOD) بیشتر باعث افزایش صرفه جویی در فلاپ های قبل از آموزش به 4.2 برابر می شود (متن: 3.4x ، تصویر: 5.3x) ، اگرچه این ترکیب به دلیل افزایش حساسیت به دقت روتر ، عملکرد را در استنتاج علیت صدمه می زند.این نتایج پتانسیل MOMA را برای پیشرفت قابل توجهی از کارآیی مدل زبان مخلوط اولیه ، زودهنگام از قبل از آموزش نشان می دهد و راه را برای سیستم های هوش مصنوعی چندمودال با کارآمدتر و توانمند تر هموار می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |




نقد و بررسیها
هنوز بررسیای ثبت نشده است.