| عنوان مقاله به انگلیسی | Enhance Modality Robustness in Text-Centric Multimodal Alignment with Adversarial Prompting | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله تقویت استحکام روش در تراز چند مدلی متن محور با فوریت های مخالف | ||||||||
| نویسندگان | Yun-Da Tsai, Ting-Yu Yen, Keng-Te Liao, Shou-De Lin | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 12 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,یادگیری ماشین , | ||||||||
| توضیحات | Submitted 19 August, 2024; originally announced August 2024. , Comments: arXiv admin note: text overlap with arXiv:2407.05036 | ||||||||
| توضیحات به فارسی | ارسال شده در 19 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: Arxiv Admin توجه: همپوشانی متن با ARXIV: 2407.05036 | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Converting different modalities into generalized text, which then serves as input prompts for large language models (LLMs), is a common approach for aligning multimodal models, particularly when pairwise data is limited. Text-centric alignment method leverages the unique properties of text as a modality space, transforming diverse inputs into a unified textual representation, thereby enabling downstream models to effectively interpret various modal inputs. This study evaluates the quality and robustness of multimodal representations in the face of noise imperfections, dynamic input order permutations, and missing modalities, revealing that current text-centric alignment methods can compromise downstream robustness. To address this issue, we propose a new text-centric adversarial training approach that significantly enhances robustness compared to traditional robust training methods and pre-trained multimodal foundation models. Our findings underscore the potential of this approach to improve the robustness and adaptability of multimodal representations, offering a promising solution for dynamic and real-world applications.
چکیده به فارسی (ترجمه ماشینی)
تبدیل روشهای مختلف به متن عمومی ، که سپس به عنوان درخواست های ورودی برای مدل های بزرگ زبان (LLMS) عمل می کند ، یک رویکرد مشترک برای تراز کردن مدلهای چند حالته است ، به ویژه هنگامی که داده های زوجی محدود است.روش تراز متن محور از خصوصیات منحصر به فرد متن به عنوان یک فضای روش استفاده می کند و ورودی های متنوع را به یک نمایش متنی یکپارچه تبدیل می کند و از این طریق مدل های پایین دست را قادر می سازد تا به طور مؤثر ورودی های مختلف معین را تفسیر کنند.این مطالعه کیفیت و استحکام بازنمودهای چند حالته را در مواجهه با نواقص سر و صدا ، جابجایی ترتیب ورودی پویا و روشهای گمشده ارزیابی می کند ، و نشان می دهد که روشهای تراز متن محور فعلی می توانند استحکام پایین دست را به خطر بیاندازند.برای پرداختن به این مسئله ، ما یک رویکرد جدید آموزش مخالف متنی محور را پیشنهاد می کنیم که استحکام را در مقایسه با روشهای آموزش سنتی قوی و مدلهای بنیاد چندمودال از قبل آموزش دیده افزایش می دهد.یافته های ما پتانسیل این رویکرد را برای بهبود استحکام و سازگاری بازنمایی های چندمودال تأکید می کند و یک راه حل امیدوارکننده برای برنامه های پویا و واقعی در دنیای واقعی ارائه می دهد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.