| عنوان مقاله به انگلیسی | Infusing Environmental Captions for Long-Form Video Language Grounding |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله القای زیرنویسهای محیطی برای زمینهسازی زبان ویدیوهای طولانی |
| نویسندگان | Hyogun Lee, Soyeon Hong, Mujeen Sung, Jinwoo Choi |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 7 |
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Machine Learning,چشم انداز رایانه و تشخیص الگوی , یادگیری ماشین , |
| توضیحات | Submitted 6 August, 2024; v1 submitted 5 August, 2024; originally announced August 2024. , Comments: 7 pages, 3 figures |
| توضیحات به فارسی | ارائه شده در 6 اوت 2024 ؛V1 ارسال شده 5 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 7 صفحه ، 3 شکل |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 280,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
In this work, we tackle the problem of long-form video-language grounding (VLG). Given a long-form video and a natural language query, a model should temporally localize the precise moment that answers the query. Humans can easily solve VLG tasks, even with arbitrarily long videos, by discarding irrelevant moments using extensive and robust knowledge gained from experience. Unlike humans, existing VLG methods are prone to fall into superficial cues learned from small-scale datasets, even when they are within irrelevant frames. To overcome this challenge, we propose EI-VLG, a VLG method that leverages richer textual information provided by a Multi-modal Large Language Model (MLLM) as a proxy for human experiences, helping to effectively exclude irrelevant frames. We validate the effectiveness of the proposed method via extensive experiments on a challenging EgoNLQ benchmark.
چکیده به فارسی (ترجمه ماشینی)
در این کار ، ما با مشکل زمینی به زبان ویدیویی طولانی (VLG) مقابله می کنیم.با توجه به یک فیلم طولانی و یک پرس و جو در زبان طبیعی ، یک مدل باید به طور موقت لحظه دقیق را که به پرس و جو پاسخ می دهد بومی سازی کند.انسانها با دور انداختن لحظات بی ربط با استفاده از دانش گسترده و قوی به دست آمده از تجربه ، می توانند به راحتی وظایف VLG را حتی با فیلم های خودسرانه طولانی حل کنند.بر خلاف انسان ، روشهای VLG موجود مستعد ابتلا به نشانه های سطحی است که از مجموعه داده های در مقیاس کوچک آموخته می شوند ، حتی اگر در قاب های بی ربط باشند.برای غلبه بر این چالش ، ما EI-VLG ، یک روش VLG را پیشنهاد می کنیم که از اطلاعات متنی غنی تر ارائه شده توسط یک مدل زبان بزرگ چند منظوره (MLLM) به عنوان یک پروکسی برای تجربیات انسانی استفاده می کند و به محرومیت مؤثر قاب های بی ربط کمک می کند.ما اثربخشی روش پیشنهادی را از طریق آزمایش های گسترده بر روی یک معیار Egonlq چالش برانگیز تأیید می کنیم.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.