ترجمه فارسی مقاله OneEncoder: چارچوبی سبک برای تراز پیشروی مدالیته ها

300,000 تومان

عنوان مقاله به انگلیسی OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities
عنوان مقاله به فارسی ترجمه فارسی مقاله OneEncoder: چارچوبی سبک برای تراز پیشروی مدالیته ها
نویسندگان Bilal Faye, Hanane Azzag, Mustapha Lebbah
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 15
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Computer Vision and Pattern Recognition,Machine Learning,چشم انداز رایانه و تشخیص الگوی , یادگیری ماشین ,
توضیحات Submitted 18 September, 2024; v1 submitted 17 September, 2024; originally announced September 2024.
توضیحات به فارسی ارائه شده در 18 سپتامبر 2024 ؛V1 ارسال شده 17 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Cross-modal alignment Learning integrates information from different modalities like text, image, audio and video to create unified models. This approach develops shared representations and learns correlations between modalities, enabling applications such as visual question answering and audiovisual content analysis. Current techniques rely on large modality-specific encoders, necessitating fine-tuning or training from scratch on vast aligned datasets (e.g., text-image, text-audio, image-audio). This approach has limitations: (i) it is very expensive due to the need for training large encoders on extensive datasets, (ii) acquiring aligned large paired datasets is challenging, and (iii) adding new modalities requires retraining the entire framework to incorporate these modalities. To address these issues, we propose OneEncoder, a lightweight framework that progressively represents and aligns four modalities (image, text, audio, video). Initially, we train a lightweight Universal Projection module (UP) to align image and text modalities. Then, we freeze the pretrained UP and progressively align future modalities to those already aligned. OneEncoder operates efficiently and cost-effectively, even in scenarios where vast aligned datasets are unavailable, due to its lightweight design. Trained on small paired datasets, it shows strong performance in tasks like classification, querying, and visual question answering, surpassing methods that rely on large datasets and specialized encoders.

چکیده به فارسی (ترجمه ماشینی)

یادگیری تراز متقابل متقابل اطلاعات را از روشهای مختلف مانند متن ، تصویر ، صدا و فیلم برای ایجاد مدل های یکپارچه ادغام می کند.این رویکرد بازنمودهای مشترک را توسعه می دهد و همبستگی بین روشها را می آموزد ، برنامه هایی مانند پاسخ به سؤال بصری و تجزیه و تحلیل محتوای سمعی و بصری را امکان پذیر می کند.تکنیک های فعلی به رمزگذارهای بزرگ خاص متکی هستند ، که نیاز به تنظیم دقیق یا آموزش از خراش در مجموعه داده های وسیع (به عنوان مثال ، تصویر متن ، متن-اکسید ، تصویر-اکسید) دارند.این رویکرد محدودیت هایی دارد: (i) به دلیل نیاز به آموزش رمزگذارهای بزرگ در مجموعه داده های گسترده بسیار گران است ، (ب) دستیابی به مجموعه داده های جفت بزرگ تراز شده چالش برانگیز است ، و (iii) اضافه کردن روش های جدید نیاز به بازآموزی کل چارچوب برای ترکیب این موارد داردروشهابرای پرداختن به این مسائل ، ما OneEncoder را پیشنهاد می کنیم ، یک چارچوب سبک وزن که به تدریج نمایانگر چهار روش (تصویر ، متن ، صدا ، فیلم) است.در ابتدا ، ما یک ماژول طرح ریزی جهانی سبک (UP) را برای تراز کردن تصویر و متون آموزش می دهیم.سپس ، ما پیش ساخته را یخ می زنیم و به تدریج روشهای آینده را با آنهایی که قبلاً تراز شده اند ، تراز می کنیم.OneEncoder حتی در سناریوهایی که به دلیل طراحی سبک وزن آن ، در سناریوهایی که مجموعه داده های تراز شده در دسترس نیستند ، به طور کارآمد و مقرون به صرفه عمل می کند.آموزش داده شده در مجموعه داده های زوج کوچک ، عملکرد خوبی را در کارهایی مانند طبقه بندی ، پرس و جو و پاسخ به سؤال بصری نشان می دهد ، از روش هایی که به مجموعه داده های بزرگ و رمزگذارهای تخصصی متکی هستند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله OneEncoder: چارچوبی سبک برای تراز پیشروی مدالیته ها”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا