ترجمه فارسی مقاله JARViS: تشخیص اقدامات در ویدیو با استفاده از مدل‌سازی یکپارچه رابطه زمینه بازیگر-صحنه

19,000 تومان – 1,240,000 تومان

نوع دانلود

شناسه محصول: نامعلوم دسته: ترجمه, مقالات

عنوان مقاله به انگلیسی	JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling
عنوان مقاله به فارسی	ترجمه فارسی مقاله JARViS: تشخیص اقدامات در ویدیو با استفاده از مدل‌سازی یکپارچه رابطه زمینه بازیگر-صحنه
نویسندگان	Seok Hwan Lee, Taein Son, Soo Won Seo, Jisong Kim, Jun Won Choi
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	31
دسته بندی موضوعات	Computer Vision and Pattern Recognition,Machine Learning,چشم انداز رایانه و تشخیص الگوی , یادگیری ماشین ,
توضیحات	Submitted 17 September, 2024; v1 submitted 7 August, 2024; originally announced August 2024. , Comments: 31 pages, 10 figures, update references
توضیحات به فارسی	ارسال شده 17 سپتامبر 2024 ؛V1 ارسال شده در 7 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 31 صفحه ، 10 شکل ، منابع به روزرسانی

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 1,240,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Video action detection (VAD) is a formidable vision task that involves the localization and classification of actions within the spatial and temporal dimensions of a video clip. Among the myriad VAD architectures, two-stage VAD methods utilize a pre-trained person detector to extract the region of interest features, subsequently employing these features for action detection. However, the performance of two-stage VAD methods has been limited as they depend solely on localized actor features to infer action semantics. In this study, we propose a new two-stage VAD framework called Joint Actor-scene context Relation modeling based on Visual Semantics (JARViS), which effectively consolidates cross-modal action semantics distributed globally across spatial and temporal dimensions using Transformer attention. JARViS employs a person detector to produce densely sampled actor features from a keyframe. Concurrently, it uses a video backbone to create spatio-temporal scene features from a video clip. Finally, the fine-grained interactions between actors and scenes are modeled through a Unified Action-Scene Context Transformer to directly output the final set of actions in parallel. Our experimental results demonstrate that JARViS outperforms existing methods by significant margins and achieves state-of-the-art performance on three popular VAD datasets, including AVA, UCF101-24, and JHMDB51-21.

چکیده به فارسی (ترجمه ماشینی)

تشخیص عمل ویدیویی (VAD) یک کار بینایی برجسته است که شامل بومی سازی و طبقه بندی اقدامات در ابعاد مکانی و زمانی یک کلیپ ویدیویی است.در میان معماری های بی شمار VAD ، روشهای دو مرحله ای VAD از یک آشکارساز از قبل آموزش دیده برای استخراج منطقه از ویژگی های مورد علاقه استفاده می کنند ، متعاقباً از این ویژگی ها برای تشخیص عمل استفاده می کنند.با این حال ، عملکرد روشهای دو مرحله ای VAD محدود شده است زیرا آنها صرفاً به ویژگی های بازیگر بومی شده برای استنباط معناشناسی عمل بستگی دارند.در این مطالعه ، ما یک چارچوب جدید VAD دو مرحله ای به نام مدل سازی رابطه متن بازیگر نقش مشترک را بر اساس معناشناسی بصری (جارویس) پیشنهاد می کنیم ، که به طور موثری معانی عملکرد متقاطع را با استفاده از ابعاد مکانی و زمانی با استفاده از توجه ترانسفورماتور توزیع می کند.جارویس از یک ردیاب شخص برای تولید ویژگی های بازیگر متراکم از یک کلید اصلی استفاده می کند.به طور هم زمان ، از یک ستون فقرات ویدیویی برای ایجاد ویژگی های صحنه فضایی-زمانی از یک کلیپ ویدیویی استفاده می کند.سرانجام ، تعامل ریز دانه بین بازیگران و صحنه ها از طریق یک ترانسفورماتور متن صحنه یکپارچه مدل سازی می شود تا مستقیماً مجموعه نهایی اقدامات را به صورت موازی به دست آورد.نتایج تجربی ما نشان می دهد که جارویس از روشهای موجود با حاشیه های قابل توجه بهتر عمل می کند و به عملکرد پیشرفته در سه مجموعه داده VAD محبوب ، از جمله AVA ، UCF101-24 و JHMDB51-21 می رسد.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نوع دانلود	دانلود مقاله اصل انگلیسی, سفارش ترجمه فارسی مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله JARViS: تشخیص اقدامات در ویدیو با استفاده از مدل‌سازی یکپارچه رابطه زمینه بازیگر-صحنه”

ترجمه فارسی مقاله JARViS: تشخیص اقدامات در ویدیو با استفاده از مدل‌سازی یکپارچه رابطه زمینه بازیگر-صحنه

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

سفارش ترجمه فارسی مقاله

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

ترجمه فارسی مقاله LOLGORITH: ادغام عناصر معنایی، نحوی و متنی برای طبقه بندی طنز

ترجمه فارسی مقاله یک گزارش روش شناختی در مورد تشخیص ناهنجاری در نمودارهای دانش پویا

کتاب تاریخ آسیای میانه، مجموعه 4 جلد

ترجمه فارسی مقاله آیا می توانیم برای تهیه برنامه های افکار طولانی به عوامل LLM اعتماد کنیم؟بیایید به عنوان نمونه Travelplanner را بگیریم