| عنوان مقاله به انگلیسی | JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله JARViS: تشخیص اقدامات در ویدیو با استفاده از مدلسازی یکپارچه رابطه زمینه بازیگر-صحنه |
| نویسندگان | Seok Hwan Lee, Taein Son, Soo Won Seo, Jisong Kim, Jun Won Choi |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 31 |
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Machine Learning,چشم انداز رایانه و تشخیص الگوی , یادگیری ماشین , |
| توضیحات | Submitted 17 September, 2024; v1 submitted 7 August, 2024; originally announced August 2024. , Comments: 31 pages, 10 figures, update references |
| توضیحات به فارسی | ارسال شده 17 سپتامبر 2024 ؛V1 ارسال شده در 7 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 31 صفحه ، 10 شکل ، منابع به روزرسانی |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 1,240,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Video action detection (VAD) is a formidable vision task that involves the localization and classification of actions within the spatial and temporal dimensions of a video clip. Among the myriad VAD architectures, two-stage VAD methods utilize a pre-trained person detector to extract the region of interest features, subsequently employing these features for action detection. However, the performance of two-stage VAD methods has been limited as they depend solely on localized actor features to infer action semantics. In this study, we propose a new two-stage VAD framework called Joint Actor-scene context Relation modeling based on Visual Semantics (JARViS), which effectively consolidates cross-modal action semantics distributed globally across spatial and temporal dimensions using Transformer attention. JARViS employs a person detector to produce densely sampled actor features from a keyframe. Concurrently, it uses a video backbone to create spatio-temporal scene features from a video clip. Finally, the fine-grained interactions between actors and scenes are modeled through a Unified Action-Scene Context Transformer to directly output the final set of actions in parallel. Our experimental results demonstrate that JARViS outperforms existing methods by significant margins and achieves state-of-the-art performance on three popular VAD datasets, including AVA, UCF101-24, and JHMDB51-21.
چکیده به فارسی (ترجمه ماشینی)
تشخیص عمل ویدیویی (VAD) یک کار بینایی برجسته است که شامل بومی سازی و طبقه بندی اقدامات در ابعاد مکانی و زمانی یک کلیپ ویدیویی است.در میان معماری های بی شمار VAD ، روشهای دو مرحله ای VAD از یک آشکارساز از قبل آموزش دیده برای استخراج منطقه از ویژگی های مورد علاقه استفاده می کنند ، متعاقباً از این ویژگی ها برای تشخیص عمل استفاده می کنند.با این حال ، عملکرد روشهای دو مرحله ای VAD محدود شده است زیرا آنها صرفاً به ویژگی های بازیگر بومی شده برای استنباط معناشناسی عمل بستگی دارند.در این مطالعه ، ما یک چارچوب جدید VAD دو مرحله ای به نام مدل سازی رابطه متن بازیگر نقش مشترک را بر اساس معناشناسی بصری (جارویس) پیشنهاد می کنیم ، که به طور موثری معانی عملکرد متقاطع را با استفاده از ابعاد مکانی و زمانی با استفاده از توجه ترانسفورماتور توزیع می کند.جارویس از یک ردیاب شخص برای تولید ویژگی های بازیگر متراکم از یک کلید اصلی استفاده می کند.به طور هم زمان ، از یک ستون فقرات ویدیویی برای ایجاد ویژگی های صحنه فضایی-زمانی از یک کلیپ ویدیویی استفاده می کند.سرانجام ، تعامل ریز دانه بین بازیگران و صحنه ها از طریق یک ترانسفورماتور متن صحنه یکپارچه مدل سازی می شود تا مستقیماً مجموعه نهایی اقدامات را به صورت موازی به دست آورد.نتایج تجربی ما نشان می دهد که جارویس از روشهای موجود با حاشیه های قابل توجه بهتر عمل می کند و به عملکرد پیشرفته در سه مجموعه داده VAD محبوب ، از جمله AVA ، UCF101-24 و JHMDB51-21 می رسد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.