,

ترجمه فارسی مقاله mPLUG-Owl3: به سوی درک توالی تصویر طولانی در مدل‌های زبان بزرگ چندوجهی

19,000 تومان960,000 تومان

شناسه محصول: نامعلوم دسته: ,
عنوان مقاله به انگلیسی mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
عنوان مقاله به فارسی ترجمه فارسی مقاله mPLUG-Owl3: به سوی درک توالی تصویر طولانی در مدل‌های زبان بزرگ چندوجهی
نویسندگان Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 24
دسته بندی موضوعات Computer Vision and Pattern Recognition,Artificial Intelligence,Computation and Language,Machine Learning,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , محاسبات و زبان , یادگیری ماشین ,
توضیحات Submitted 13 August, 2024; v1 submitted 8 August, 2024; originally announced August 2024.
توضیحات به فارسی ارسال شده در 13 اوت 2024 ؛V1 ارسال شده در 8 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 960,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Multi-modal Large Language Models (MLLMs) have demonstrated remarkable capabilities in executing instructions for a variety of single-image tasks. Despite this progress, significant challenges remain in modeling long image sequences. In this work, we introduce the versatile multi-modal large language model, mPLUG-Owl3, which enhances the capability for long image-sequence understanding in scenarios that incorporate retrieved image-text knowledge, interleaved image-text, and lengthy videos. Specifically, we propose novel hyper attention blocks to efficiently integrate vision and language into a common language-guided semantic space, thereby facilitating the processing of extended multi-image scenarios. Extensive experimental results suggest that mPLUG-Owl3 achieves state-of-the-art performance among models with a similar size on single-image, multi-image, and video benchmarks. Moreover, we propose a challenging long visual sequence evaluation named Distractor Resistance to assess the ability of models to maintain focus amidst distractions. Finally, with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to the development of more efficient and powerful multimodal large language models.

چکیده به فارسی (ترجمه ماشینی)

مدل های بزرگ زبان چند منظوره (MLLMS) در اجرای دستورالعمل ها برای انواع کارهای تک تصویر ، قابلیت های قابل توجهی را نشان داده اند.با وجود این پیشرفت ، چالش های قابل توجهی در مدل سازی توالی های طولانی تصویر باقی مانده است.در این کار ، ما مدل زبان بزرگ چند منظوره چند منظوره ، MPLUG-YOWL3 را معرفی می کنیم ، که توانایی درک طولانی مدت تصویر را در سناریوهایی که شامل دانش متن تصویر بازیابی شده ، متن تصویر درهم تنیده و فیلم های طولانی هستند ، تقویت می کند.به طور خاص ، ما بلوک های بیش از حد توجه جدید را برای ادغام کارآمد بینش و زبان در یک فضای معنایی مشترک با زبان مشترک پیشنهاد می کنیم و از این طریق پردازش سناریوهای چند تصویر گسترده را تسهیل می کنیم.نتایج تجربی گسترده نشان می دهد که MPLUG-YOW3 به عملکرد پیشرفته در بین مدلها با اندازه مشابه در معیارهای تک تصویر ، چند تصویر و ویدیویی دست می یابد.علاوه بر این ، ما یک ارزیابی توالی بصری طولانی چالش برانگیز به نام مقاومت حواس پرتی را برای ارزیابی توانایی مدل ها برای حفظ تمرکز در میان حواس پرتی پیشنهاد می کنیم.سرانجام ، با معماری پیشنهادی ، MPLUG-COWL3 عملکرد برجسته ای را در ورودی های توالی بصری فوق العاده طولانی نشان می دهد.ما امیدواریم که MPLUG-YOW3 بتواند در توسعه مدلهای بزرگ زبان چندرسانه ای کارآمدتر و قدرتمندتر نقش داشته باشد.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, سفارش ترجمه فارسی مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله mPLUG-Owl3: به سوی درک توالی تصویر طولانی در مدل‌های زبان بزرگ چندوجهی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا