,

ترجمه فارسی مقاله القای زیرنویس‌های محیطی برای زمینه‌سازی زبان ویدیوهای طولانی

19,000 تومان280,000 تومان

شناسه محصول: نامعلوم دسته: ,
عنوان مقاله به انگلیسی Infusing Environmental Captions for Long-Form Video Language Grounding
عنوان مقاله به فارسی ترجمه فارسی مقاله القای زیرنویس‌های محیطی برای زمینه‌سازی زبان ویدیوهای طولانی
نویسندگان Hyogun Lee, Soyeon Hong, Mujeen Sung, Jinwoo Choi
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 7
دسته بندی موضوعات Computer Vision and Pattern Recognition,Machine Learning,چشم انداز رایانه و تشخیص الگوی , یادگیری ماشین ,
توضیحات Submitted 6 August, 2024; v1 submitted 5 August, 2024; originally announced August 2024. , Comments: 7 pages, 3 figures
توضیحات به فارسی ارائه شده در 6 اوت 2024 ؛V1 ارسال شده 5 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 7 صفحه ، 3 شکل

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 280,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

In this work, we tackle the problem of long-form video-language grounding (VLG). Given a long-form video and a natural language query, a model should temporally localize the precise moment that answers the query. Humans can easily solve VLG tasks, even with arbitrarily long videos, by discarding irrelevant moments using extensive and robust knowledge gained from experience. Unlike humans, existing VLG methods are prone to fall into superficial cues learned from small-scale datasets, even when they are within irrelevant frames. To overcome this challenge, we propose EI-VLG, a VLG method that leverages richer textual information provided by a Multi-modal Large Language Model (MLLM) as a proxy for human experiences, helping to effectively exclude irrelevant frames. We validate the effectiveness of the proposed method via extensive experiments on a challenging EgoNLQ benchmark.

چکیده به فارسی (ترجمه ماشینی)

در این کار ، ما با مشکل زمینی به زبان ویدیویی طولانی (VLG) مقابله می کنیم.با توجه به یک فیلم طولانی و یک پرس و جو در زبان طبیعی ، یک مدل باید به طور موقت لحظه دقیق را که به پرس و جو پاسخ می دهد بومی سازی کند.انسانها با دور انداختن لحظات بی ربط با استفاده از دانش گسترده و قوی به دست آمده از تجربه ، می توانند به راحتی وظایف VLG را حتی با فیلم های خودسرانه طولانی حل کنند.بر خلاف انسان ، روشهای VLG موجود مستعد ابتلا به نشانه های سطحی است که از مجموعه داده های در مقیاس کوچک آموخته می شوند ، حتی اگر در قاب های بی ربط باشند.برای غلبه بر این چالش ، ما EI-VLG ، یک روش VLG را پیشنهاد می کنیم که از اطلاعات متنی غنی تر ارائه شده توسط یک مدل زبان بزرگ چند منظوره (MLLM) به عنوان یک پروکسی برای تجربیات انسانی استفاده می کند و به محرومیت مؤثر قاب های بی ربط کمک می کند.ما اثربخشی روش پیشنهادی را از طریق آزمایش های گسترده بر روی یک معیار Egonlq چالش برانگیز تأیید می کنیم.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله, سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله القای زیرنویس‌های محیطی برای زمینه‌سازی زبان ویدیوهای طولانی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا