ترجمه فارسی مقاله NVLM: LLMهای چندوجهی کلاس مرزی باز

640,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	NVLM: Open Frontier-Class Multimodal LLMs
عنوان مقاله به فارسی	ترجمه فارسی مقاله NVLM: LLMهای چندوجهی کلاس مرزی باز
نویسندگان	Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	32
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Computation and Language,Artificial Intelligence,Computer Vision and Pattern Recognition,Machine Learning,Multimedia,محاسبات و زبان , هوش مصنوعی , چشم انداز رایانه و تشخیص الگوی , یادگیری ماشین , چندرسانه ای ,
توضیحات	Submitted 17 September, 2024; originally announced September 2024.
توضیحات به فارسی	ارسال شده 17 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

We introduce NVLM 1.0, a family of frontier-class multimodal large language models (LLMs) that achieve state-of-the-art results on vision-language tasks, rivaling the leading proprietary models (e.g., GPT-4o) and open-access models (e.g., Llama 3-V 405B and InternVL 2). Remarkably, NVLM 1.0 shows improved text-only performance over its LLM backbone after multimodal training. In terms of model design, we perform a comprehensive comparison between decoder-only multimodal LLMs (e.g., LLaVA) and cross-attention-based models (e.g., Flamingo). Based on the strengths and weaknesses of both approaches, we propose a novel architecture that enhances both training efficiency and multimodal reasoning capabilities. Furthermore, we introduce a 1-D tile-tagging design for tile-based dynamic high-resolution images, which significantly boosts performance on multimodal reasoning and OCR-related tasks. Regarding training data, we meticulously curate and provide detailed information on our multimodal pretraining and supervised fine-tuning datasets. Our findings indicate that dataset quality and task diversity are more important than scale, even during the pretraining phase, across all architectures. Notably, we develop production-grade multimodality for the NVLM-1.0 models, enabling them to excel in vision-language tasks while maintaining and even improving text-only performance compared to their LLM backbones. To achieve this, we craft and integrate a high-quality text-only dataset into multimodal training, alongside a substantial amount of multimodal math and reasoning data, leading to enhanced math and coding capabilities across modalities. To advance research in the field, we are releasing the model weights and will open-source the code for the community: https://nvlm-project.github.io/.

چکیده به فارسی (ترجمه ماشینی)

ما NVLM 1.0 را معرفی می کنیم ، خانواده ای از مدل های بزرگ زبان چند مدلی (LLM) که به نتایج پیشرفته در کارهای بینایی زبان می رسند ، با مدل های پیشرو اختصاصی (به عنوان مثال ، GPT-4O) و دسترسی باز ، رقابت می کنند.مدل ها (به عنوان مثال ، Llama 3-V 405B و internvl 2).نکته قابل توجه ، NVLM 1.0 عملکرد فقط متن را نسبت به ستون فقرات LLM خود پس از آموزش چند مدلی نشان می دهد.از نظر طراحی مدل ، ما یک مقایسه جامع بین LLMS چند مدلی رمزگذار (به عنوان مثال ، LLAVA) و مدلهای مبتنی بر توجه به متقابل (به عنوان مثال ، فلامینگو) انجام می دهیم.بر اساس نقاط قوت و ضعف هر دو رویکرد ، ما یک معماری جدید پیشنهاد می کنیم که هم بهره وری آموزش و هم قابلیت های استدلال چند مدلی را تقویت می کند.علاوه بر این ، ما یک طرح برچسب زدن به کاشی 1 بعدی را برای تصاویر با وضوح بالا مبتنی بر کاشی معرفی می کنیم ، که به طور قابل توجهی عملکرد در استدلال چند مدلی و کارهای مرتبط با OCR را افزایش می دهد.با توجه به داده های آموزش ، ما به طور دقیق و دقیق اطلاعات دقیق در مورد پیش تنظیم چند حالته خود و نظارت بر مجموعه داده های تنظیم دقیق را ارائه می دهیم.یافته های ما نشان می دهد که کیفیت مجموعه داده ها و تنوع وظیفه از مقیاس ، حتی در مرحله پیش از پیش ، در تمام معماری ها مهمتر است.نکته قابل توجه ، ما چند مدلی درجه تولید را برای مدل های NVLM-1.0 توسعه می دهیم ، و این امکان را می دهد تا ضمن حفظ و حتی بهبود عملکرد فقط متن در مقایسه با ستون فقرات LLM ، در کارهای بینایی زبان برتری داشته باشند.برای دستیابی به این هدف ، ما یک مجموعه داده فقط متن با کیفیت بالا را در آموزش چند حالته ، در کنار مقدار قابل توجهی از داده های ریاضی و استدلال چندمودال ، کار می کنیم و منجر به پیشرفته های ریاضی و برنامه نویسی در میان روشها می شویم.برای پیشبرد تحقیقات در این زمینه ، ما وزن مدل را منتشر می کنیم و کد را برای جامعه باز می کنیم: https://nvlm-project.github.io/.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله NVLM: LLMهای چندوجهی کلاس مرزی باز”

ترجمه فارسی مقاله NVLM: LLMهای چندوجهی کلاس مرزی باز

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله کالیبراسیون جبران مغناطیسی هوای مغناطیسی در سیستم های ناوبری مغناطیسی با استفاده از شبکه های زمان ثابت مایع

مقاله کاهش خاموشی از طریق RL با هدایت فیزیک

مقاله تشخیص مبتنی بر نمودار سریع برای اطلاعات رنگ ابر نقطه ای

مقاله کنترل جهت پرتو مشترک و تخصیص منابع رادیویی در شبکه های ماهواره ای چند پرتویی LEO پویا