| عنوان مقاله به انگلیسی | mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله mPLUG-Owl3: به سوی درک توالی تصویر طولانی در مدلهای زبان بزرگ چندوجهی |
| نویسندگان | Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 24 |
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Artificial Intelligence,Computation and Language,Machine Learning,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , محاسبات و زبان , یادگیری ماشین , |
| توضیحات | Submitted 13 August, 2024; v1 submitted 8 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده در 13 اوت 2024 ؛V1 ارسال شده در 8 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 960,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Multi-modal Large Language Models (MLLMs) have demonstrated remarkable capabilities in executing instructions for a variety of single-image tasks. Despite this progress, significant challenges remain in modeling long image sequences. In this work, we introduce the versatile multi-modal large language model, mPLUG-Owl3, which enhances the capability for long image-sequence understanding in scenarios that incorporate retrieved image-text knowledge, interleaved image-text, and lengthy videos. Specifically, we propose novel hyper attention blocks to efficiently integrate vision and language into a common language-guided semantic space, thereby facilitating the processing of extended multi-image scenarios. Extensive experimental results suggest that mPLUG-Owl3 achieves state-of-the-art performance among models with a similar size on single-image, multi-image, and video benchmarks. Moreover, we propose a challenging long visual sequence evaluation named Distractor Resistance to assess the ability of models to maintain focus amidst distractions. Finally, with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to the development of more efficient and powerful multimodal large language models.
چکیده به فارسی (ترجمه ماشینی)
مدل های بزرگ زبان چند منظوره (MLLMS) در اجرای دستورالعمل ها برای انواع کارهای تک تصویر ، قابلیت های قابل توجهی را نشان داده اند.با وجود این پیشرفت ، چالش های قابل توجهی در مدل سازی توالی های طولانی تصویر باقی مانده است.در این کار ، ما مدل زبان بزرگ چند منظوره چند منظوره ، MPLUG-YOWL3 را معرفی می کنیم ، که توانایی درک طولانی مدت تصویر را در سناریوهایی که شامل دانش متن تصویر بازیابی شده ، متن تصویر درهم تنیده و فیلم های طولانی هستند ، تقویت می کند.به طور خاص ، ما بلوک های بیش از حد توجه جدید را برای ادغام کارآمد بینش و زبان در یک فضای معنایی مشترک با زبان مشترک پیشنهاد می کنیم و از این طریق پردازش سناریوهای چند تصویر گسترده را تسهیل می کنیم.نتایج تجربی گسترده نشان می دهد که MPLUG-YOW3 به عملکرد پیشرفته در بین مدلها با اندازه مشابه در معیارهای تک تصویر ، چند تصویر و ویدیویی دست می یابد.علاوه بر این ، ما یک ارزیابی توالی بصری طولانی چالش برانگیز به نام مقاومت حواس پرتی را برای ارزیابی توانایی مدل ها برای حفظ تمرکز در میان حواس پرتی پیشنهاد می کنیم.سرانجام ، با معماری پیشنهادی ، MPLUG-COWL3 عملکرد برجسته ای را در ورودی های توالی بصری فوق العاده طولانی نشان می دهد.ما امیدواریم که MPLUG-YOW3 بتواند در توسعه مدلهای بزرگ زبان چندرسانه ای کارآمدتر و قدرتمندتر نقش داشته باشد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.