ترجمه فارسی مقاله درون یابی ویدیویی-LLM: به سمت LMM های دنباله طولانی تر به صورت بدون آموزش

260,000 تومان

عنوان مقاله به انگلیسی Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner
عنوان مقاله به فارسی ترجمه فارسی مقاله درون یابی ویدیویی-LLM: به سمت LMM های دنباله طولانی تر به صورت بدون آموزش
نویسندگان Yuzhang Shang, Bingxin Xu, Weitai Kang, Mu Cai, Yuheng Li, Zehao Wen, Zhen Dong, Kurt Keutzer, Yong Jae Lee, Yan Yan
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 13
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Computer Vision and Pattern Recognition,Artificial Intelligence,Machine Learning,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , یادگیری ماشین ,
توضیحات Submitted 19 September, 2024; originally announced September 2024.
توضیحات به فارسی ارسال شده در 19 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Advancements in Large Language Models (LLMs) inspire various strategies for integrating video modalities. A key approach is Video-LLMs, which incorporate an optimizable interface linking sophisticated video encoders to LLMs. However, due to computation and data limitations, these Video-LLMs are typically pre-trained to process only short videos, limiting their broader application for understanding longer video content. Additionally, fine-tuning Video-LLMs to handle longer videos is cost-prohibitive. Consequently, it becomes essential to explore the interpolation of Video-LLMs under a completely training-free setting. In this paper, we first identify the primary challenges in interpolating Video-LLMs: (1) the video encoder and modality alignment projector are fixed, preventing the integration of additional frames into Video-LLMs, and (2) the LLM backbone is limited in its content length capabilities, which complicates the processing of an increased number of video tokens. To address these challenges, we propose a specific INTerPolation method for Video-LLMs (INTP-Video-LLMs). We introduce an alternative video token rearrangement technique that circumvents limitations imposed by the fixed video encoder and alignment projector. Furthermore, we introduce a training-free LLM context window extension method to enable Video-LLMs to understand a correspondingly increased number of visual tokens.

چکیده به فارسی (ترجمه ماشینی)

پیشرفت در مدل های بزرگ زبان (LLMS) الهام بخش استراتژی های مختلفی برای ادغام روشهای ویدئویی است.یک رویکرد کلیدی ویدیویی-LLMS است که شامل یک رابط بهینه قابل اتصال است که رمزگذارهای ویدئویی پیشرفته را به LLM ها پیوند می دهد.با این حال ، به دلیل محاسبات و محدودیت داده ها ، این LLM های ویدئویی معمولاً از قبل آموزش دیده می شوند تا فقط فیلم های کوتاه را پردازش کنند و کاربرد گسترده تر آنها را برای درک محتوای ویدیویی طولانی تر محدود می کنند.علاوه بر این ، تنظیمات ویدیویی های تنظیم دقیق برای اداره فیلم های طولانی تر ، هزینه ای است.در نتیجه ، کشف درون یابی ویدیویی LLM ها تحت یک محیط کاملاً بدون آموزش ضروری می شود.در این مقاله ، ما ابتدا چالش های اصلی در درون یابی ویدیویی LLMS را شناسایی می کنیم: (1) پروژکتور رمزگذار و ویدیو و پروژکتور تراز روش ثابت است و از ادغام فریم های اضافی در LLM های ویدیویی جلوگیری می کند ، و (2) ستون فقرات LLM محدود استقابلیت های طول محتوای آن ، که پردازش تعداد بیشتری از نشانه های ویدیویی را پیچیده می کند.برای پرداختن به این چالش ها ، ما یک روش درون یابی خاص برای ویدیویی LLM (INTP-Video-LLM) پیشنهاد می کنیم.ما یک تکنیک بازآرایی توکن ویدیویی جایگزین را معرفی می کنیم که محدودیت های تحمیل شده توسط رمزگذار ویدیویی ثابت و پروژکتور تراز را دور می زند.علاوه بر این ، ما یک روش پسوند پنجره زمینه LLM بدون آموزش را معرفی می کنیم تا بتوانیم ویدیویی LLM ها را برای درک تعداد قابل توجهی از نشانه های بصری فعال کنیم.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله درون یابی ویدیویی-LLM: به سمت LMM های دنباله طولانی تر به صورت بدون آموزش”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا