| عنوان مقاله به انگلیسی | MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله MLLM یک رتبهبندیکننده قوی است: پیشبرد تولید تقویتشده با بازیابی چندوجهی از طریق رتبهبندی مجدد مبتنی بر دانش و آموزش تزریق نویز |
| نویسندگان | Zhanpeng Chen, Chengjin Xu, Yiyan Qi, Jian Guo |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 12 |
| دسته بندی موضوعات | Artificial Intelligence,Computation and Language,Machine Learning,هوش مصنوعی , محاسبات و زبان , یادگیری ماشین , |
| توضیحات | Submitted 31 July, 2024; originally announced July 2024. |
| توضیحات به فارسی | ارسال 31 ژوئیه 2024 ؛در ابتدا ژوئیه 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 480,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in processing and generating content across multiple data modalities, including text, images, audio, and video. However, a significant drawback of MLLMs is their reliance on static training data, leading to outdated information and limited contextual awareness. This static nature hampers their ability to provide accurate, up-to-date responses, particularly in dynamic or rapidly evolving contexts. Integrating Multimodal Retrieval-augmented Generation (Multimodal RAG) offers a promising solution, but the system would inevitably encounter the multi-granularity noisy correspondence (MNC) problem, which involves two types of noise: coarse-grained (query-caption) and fine-grained (query-image). This noise hinders accurate retrieval and generation. In this work, we propose textbf{RagLLaVA}, a novel framework with knowledge-enhanced reranking and noise-injected training, to address these limitations. We instruction-tune the MLLM with a simple yet effective instruction template to induce its ranking ability and serve it as a reranker to precisely filter the top-k retrieved images. For generation, we inject visual noise during training at the data and token levels to enhance the generator’s robustness. Extensive experiments are conducted on the subsets of two datasets that require retrieving and reasoning over images to answer a given query. Our results demonstrate the superiority of RagLLaVA in retrieving accurately and generating robustly. Code and models are available at https://github.com/IDEA-FinAI/RagLLaVA.
چکیده به فارسی (ترجمه ماشینی)
مدلهای بزرگ زبان چندمودال (MLLMS) قابلیت های قابل توجهی در پردازش و تولید محتوا در چندین روش داده از جمله متن ، تصاویر ، صدا و فیلم نشان داده اند.با این حال ، یک اشکال قابل توجه از MLLMS اعتماد به نفس آنها به داده های آموزش استاتیک است که منجر به اطلاعات منسوخ و آگاهی متن محدود می شود.این طبیعت استاتیک توانایی آنها را در ارائه پاسخ های دقیق و به روز ، به ویژه در زمینه های پویا یا به سرعت در حال تحول مانع می کند.یکپارچه سازی نسل بازیابی چندمودال (Multimodal Rag) یک راه حل امیدوارکننده را ارائه می دهد ، اما این سیستم به ناچار با مشکل مکاتبات پر سر و صدا چندپاری (MNC) روبرو می شود ، که شامل دو نوع سر و صدا است: درشت دانه (-THERY-CAPTION) و ریزدانه (تصویر پرس و جو).این سر و صدا مانع از بازیابی و تولید دقیق می شود.در این کار ، ما textbf {ragllava} را پیشنهاد می کنیم ، یک چارچوب جدید با آموزش مجدد دانش و آموزش های تزریق شده با سر و صدا ، برای پرداختن به این محدودیت ها.ما MLLM را با یک الگوی دستورالعمل ساده و در عین حال مؤثر تنظیم می کنیم تا توانایی رتبه بندی آن را القا کنیم و آن را به عنوان یک رنکرین ارائه دهیم تا دقیقاً تصاویر بازیابی شده بالا را فیلتر کند.برای نسل ، ما در حین آموزش در سطح داده ها و سطح توکن ، نویز بصری را تزریق می کنیم تا استحکام ژنراتور را تقویت کنیم.آزمایش های گسترده ای بر روی زیر مجموعه های دو مجموعه داده انجام می شود که برای پاسخ به یک پرس و جو خاص نیاز به بازیابی و استدلال در مورد تصاویر دارند.نتایج ما برتری راگلاوا را در بازیابی دقیق و تولید محکم نشان می دهد.کد و مدل ها در https://github.com/idea-finai/ragllava در دسترس هستند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |




نقد و بررسیها
هنوز بررسیای ثبت نشده است.