ترجمه فارسی مقاله درون یابی ویدیویی-LLM: به سمت LMM های دنباله طولانی تر به صورت بدون آموزش

260,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner
عنوان مقاله به فارسی	ترجمه فارسی مقاله درون یابی ویدیویی-LLM: به سمت LMM های دنباله طولانی تر به صورت بدون آموزش
نویسندگان	Yuzhang Shang, Bingxin Xu, Weitai Kang, Mu Cai, Yuheng Li, Zehao Wen, Zhen Dong, Kurt Keutzer, Yong Jae Lee, Yan Yan
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	13
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Computer Vision and Pattern Recognition,Artificial Intelligence,Machine Learning,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , یادگیری ماشین ,
توضیحات	Submitted 19 September, 2024; originally announced September 2024.
توضیحات به فارسی	ارسال شده در 19 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Advancements in Large Language Models (LLMs) inspire various strategies for integrating video modalities. A key approach is Video-LLMs, which incorporate an optimizable interface linking sophisticated video encoders to LLMs. However, due to computation and data limitations, these Video-LLMs are typically pre-trained to process only short videos, limiting their broader application for understanding longer video content. Additionally, fine-tuning Video-LLMs to handle longer videos is cost-prohibitive. Consequently, it becomes essential to explore the interpolation of Video-LLMs under a completely training-free setting. In this paper, we first identify the primary challenges in interpolating Video-LLMs: (1) the video encoder and modality alignment projector are fixed, preventing the integration of additional frames into Video-LLMs, and (2) the LLM backbone is limited in its content length capabilities, which complicates the processing of an increased number of video tokens. To address these challenges, we propose a specific INTerPolation method for Video-LLMs (INTP-Video-LLMs). We introduce an alternative video token rearrangement technique that circumvents limitations imposed by the fixed video encoder and alignment projector. Furthermore, we introduce a training-free LLM context window extension method to enable Video-LLMs to understand a correspondingly increased number of visual tokens.

چکیده به فارسی (ترجمه ماشینی)

پیشرفت در مدل های بزرگ زبان (LLMS) الهام بخش استراتژی های مختلفی برای ادغام روشهای ویدئویی است.یک رویکرد کلیدی ویدیویی-LLMS است که شامل یک رابط بهینه قابل اتصال است که رمزگذارهای ویدئویی پیشرفته را به LLM ها پیوند می دهد.با این حال ، به دلیل محاسبات و محدودیت داده ها ، این LLM های ویدئویی معمولاً از قبل آموزش دیده می شوند تا فقط فیلم های کوتاه را پردازش کنند و کاربرد گسترده تر آنها را برای درک محتوای ویدیویی طولانی تر محدود می کنند.علاوه بر این ، تنظیمات ویدیویی های تنظیم دقیق برای اداره فیلم های طولانی تر ، هزینه ای است.در نتیجه ، کشف درون یابی ویدیویی LLM ها تحت یک محیط کاملاً بدون آموزش ضروری می شود.در این مقاله ، ما ابتدا چالش های اصلی در درون یابی ویدیویی LLMS را شناسایی می کنیم: (1) پروژکتور رمزگذار و ویدیو و پروژکتور تراز روش ثابت است و از ادغام فریم های اضافی در LLM های ویدیویی جلوگیری می کند ، و (2) ستون فقرات LLM محدود استقابلیت های طول محتوای آن ، که پردازش تعداد بیشتری از نشانه های ویدیویی را پیچیده می کند.برای پرداختن به این چالش ها ، ما یک روش درون یابی خاص برای ویدیویی LLM (INTP-Video-LLM) پیشنهاد می کنیم.ما یک تکنیک بازآرایی توکن ویدیویی جایگزین را معرفی می کنیم که محدودیت های تحمیل شده توسط رمزگذار ویدیویی ثابت و پروژکتور تراز را دور می زند.علاوه بر این ، ما یک روش پسوند پنجره زمینه LLM بدون آموزش را معرفی می کنیم تا بتوانیم ویدیویی LLM ها را برای درک تعداد قابل توجهی از نشانه های بصری فعال کنیم.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله درون یابی ویدیویی-LLM: به سمت LMM های دنباله طولانی تر به صورت بدون آموزش”

ترجمه فارسی مقاله درون یابی ویدیویی-LLM: به سمت LMM های دنباله طولانی تر به صورت بدون آموزش

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله کنترل جهت پرتو مشترک و تخصیص منابع رادیویی در شبکه های ماهواره ای چند پرتویی LEO پویا

مقاله انتخاب پارامتر برای تجزیه و تحلیل مکالمات با اختلال طیف اوتیسم

مقاله بهینه سازی راندمان ارتباط نوری قابل مشاهده از طریق ادغام NOMA-CSK مبتنی بر یادگیری تقویت شده

مقاله طراحی سیگنال های مرجع عمومی برای ارتباطات و سنجش یکپارچه با الگوریتم های با وضوح بالا