,

مقاله قطعه‌بندی ویدئویی ارجاعی اشیاء با ترانسفورمرهای چندوجهی به همراه PDF فارسی + پادکست صوتی فارسی + ویدیو آموزشی فارسی

150,000 تومان

📚 مقاله علمی

عنوان فارسی مقاله قطعه‌بندی ویدئویی ارجاعی اشیاء با ترانسفورمرهای چندوجهی
نویسندگان Adam Botach, Evgenii Zheltonozhskii, Chaim Baskin
دسته‌بندی علمی Computer Vision and Pattern Recognition,Computation and Language,Machine Learning

📘 محتوای این مقاله آموزشی

  • شامل فایل اصلی مقاله (PDF انگلیسی)
  • به همراه فایل PDF توضیح فارسی با بیان ساده و روان
  • دارای پادکست صوتی فارسی توضیح کامل مقاله
  • به همراه ویدیو آموزشی فارسی برای درک عمیق‌تر مفاهیم مقاله

🎯 همه‌ی فایل‌ها با هدف درک آسان و سریع مفاهیم علمی این مقاله تهیه شده‌اند.

چنانچه در دانلود فایل‌ها با مشکلی مواجه شدید، لطفاً از طریق واتس‌اپ با شماره 09395106248 یا از طریق آیدی تلگرام @ma_limbs پیام دهید تا لینک‌ها فوراً برایتان مجدداً ارسال شوند.

قطعه‌بندی ویدئویی ارجاعی اشیاء با ترانسفورمرهای چندوجهی: رویکردی نوین

معرفی مقاله و اهمیت آن

در دنیای پرشتاب هوش مصنوعی و بینایی ماشین، قطعه‌بندی ویدئویی ارجاعی اشیاء (Referring Video Object Segmentation – RVOS) به عنوان یک چالش محوری و پیچیده مطرح است. این وظیفه ترکیبی از توانایی‌های متعدد است: درک متن برای شناسایی یک شیء خاص، فهم محتوای ویدئویی برای یافتن آن شیء در فریم‌های مختلف، و سپس قطعه‌بندی دقیق آن در طول زمان و ردیابی آن در کل ویدئو. به بیان ساده‌تر، هدف این است که با دریافت یک متن توصیفی (مثلاً “ماشین قرمزی که در حال عبور از سمت چپ است”)، سیستم بتواند آن شیء را در یک ویدئو پیدا کرده و مرزهای دقیق آن را در هر فریم مشخص کند.

ماهیت چندوجهی و پیچیده این وظیفه باعث شده است که رویکردهای موجود عموماً به معماری‌های چندمرحله‌ای (sophisticated pipelines) و پیچیده متکی باشند. این معماری‌ها معمولاً شامل ماژول‌های جداگانه‌ای برای پردازش متن، ردیابی شیء، و قطعه‌بندی هستند که هر یک به صورت مجزا آموزش دیده و سپس با هم ترکیب می‌شوند. این رویکردها اغلب با چالش‌هایی نظیر خطاهای تجمعی در هر مرحله و دشواری در بهینه‌سازی کلی سیستم مواجه هستند.

مقاله “End-to-End Referring Video Object Segmentation with Multimodal Transformers” یک پیشرفت قابل توجه در این زمینه محسوب می‌شود. این پژوهش یک رویکرد مبتنی بر ترانسفورمر ساده و یکپارچه را برای RVOS معرفی می‌کند. چارچوب پیشنهادی، با نام Multimodal Tracking Transformer (MTTR)، مسئله RVOS را به عنوان یک مشکل پیش‌بینی دنباله مدل‌سازی می‌کند. اهمیت این مقاله در ساده‌سازی چشمگیر خط‌لوله (pipeline) RVOS، دستیابی به عملکرد برتر در مقایسه با روش‌های پیشین، و اثبات قدرت مدل‌های ترانسفورمر چندوجهی برای حل مسائل پیچیده بینایی ماشین و پردازش زبان طبیعی نهفته است.

نویسندگان و زمینه تحقیق

این پژوهش توسط Adam Botach، Evgenii Zheltonozhskii و Chaim Baskin انجام شده است. این اسامی نشان‌دهنده فعالیت در حوزه‌های پیشرفته هوش مصنوعی و یادگیری ماشین است. زمینه‌های اصلی تحقیق که این مقاله در آن جای می‌گیرد، شامل موارد زیر است:

  • بینایی ماشین و تشخیص الگو (Computer Vision and Pattern Recognition): که به سیستم‌ها امکان می‌دهد اطلاعات معناداری از تصاویر دیجیتال یا ویدئوها “ببینند” و “درک کنند”. RVOS به طور مستقیم در این حوزه قرار دارد و بر روی وظایف کلیدی مانند قطعه‌بندی، ردیابی و شناسایی شیء تمرکز دارد.
  • پردازش و محاسبات زبان (Computation and Language): این حوزه به تعامل بین رایانه‌ها و زبان‌های انسانی می‌پردازد. در RVOS، قابلیت درک توضیحات متنی برای شناسایی شیء مورد نظر حیاتی است و این مقاله یک پل محکم بین بینایی ماشین و NLP ایجاد می‌کند.
  • یادگیری ماشین (Machine Learning): که روش‌ها و الگوریتم‌هایی را برای سیستم‌ها فراهم می‌آورد تا از داده‌ها یاد بگیرند و عملکرد خود را بهبود بخشند. مدل‌های ترانسفورمر، که هسته اصلی MTTR را تشکیل می‌دهند، نمونه‌های پیشرفته‌ای از الگوریتم‌های یادگیری عمیق در این حوزه هستند.

این ترکیب از دسته‌بندی‌ها به وضوح ماهیت بین‌رشته‌ای (interdisciplinary) RVOS را نشان می‌دهد و تأکید می‌کند که حل این مشکل نیازمند ادغام دانش و تکنیک‌ها از حوزه‌های مختلف هوش مصنوعی است. نویسندگان با بهره‌گیری از پیشرفت‌های اخیر در هر سه زمینه، به ویژه ظهور مدل‌های ترانسفورمر، موفق به ارائه راه حلی شده‌اند که نه تنها کارآمد است بلکه از نظر مفهومی نیز ساده‌تر و یکپارچه‌تر است.

چکیده و خلاصه محتوا

مسئله قطعه‌بندی ویدئویی ارجاعی اشیاء (RVOS) شامل شناسایی و قطعه‌بندی یک نمونه شیء خاص است که با یک متن توصیف شده، در فریم‌های یک ویدئوی داده‌شده. همانطور که پیشتر اشاره شد، پیچیدگی این وظیفه چندوجهی (ترکیب استدلال متنی، درک ویدئو، قطعه‌بندی نمونه و ردیابی) باعث شده است که رویکردهای موجود عموماً به خط‌لوله‌های پیچیده و چندمرحله‌ای متکی باشند.

مقاله حاضر، رویکردی ساده مبتنی بر ترانسفورمر را برای RVOS ارائه می‌دهد. این چارچوب که Multimodal Tracking Transformer (MTTR) نام دارد، وظیفه RVOS را به عنوان یک مسئله پیش‌بینی دنباله (sequence prediction problem) مدل‌سازی می‌کند. هسته اصلی MTTR بر این درک استوار است که ویدئو و متن می‌توانند به طور مؤثر و هوشمندانه توسط یک مدل ترانسفورمر چندوجهی واحد پردازش شوند.

ویژگی‌های کلیدی MTTR شامل موارد زیر است:

  • قابلیت آموزش سرتاسری (End-to-End Trainable): این بدان معناست که کل مدل به صورت یکپارچه و از ابتدا تا انتها آموزش داده می‌شود، که امکان بهینه‌سازی کلی عملکرد را فراهم می‌کند و نیاز به آموزش جداگانه ماژول‌ها را از بین می‌برد.
  • بدون سوگیری‌های القایی مرتبط با متن (Free of text-related inductive bias components): مدل به طور طبیعی و بدون نیاز به مؤلفه‌های مهندسی‌شده خاص برای پردازش متن، اطلاعات متنی را درک می‌کند.
  • بدون نیاز به مراحل پس‌پردازش اصلاح ماسک (No additional mask-refinement post-processing steps): بر خلاف بسیاری از روش‌های موجود که نیاز به مراحل اضافی برای بهبود کیفیت ماسک‌های قطعه‌بندی شده دارند، MTTR این مراحل را حذف کرده و خروجی نهایی را مستقیماً تولید می‌کند.

این ویژگی‌ها به طور قابل توجهی خط‌لوله RVOS را در مقایسه با روش‌های موجود ساده‌سازی می‌کنند. نتایج ارزیابی بر روی معیارهای استاندارد نشان می‌دهد که MTTR عملکرد بسیار بهتری نسبت به روش‌های پیشین از خود نشان می‌دهد. به عنوان مثال، MTTR بهبود چشمگیر +5.7 و +5.0 mAP را به ترتیب در مجموعه داده‌های A2D-Sentences و JHMDB-Sentences به دست آورده، در حالی که 76 فریم در ثانیه را پردازش می‌کند. علاوه بر این، نتایج قدرتمندی بر روی مجموعه داده Refer-YouTube-VOS، که یک مجموعه داده چالش‌برانگیزتر برای RVOS است و هنوز توجه زیادی از محققان را به خود جلب نکرده، گزارش شده است.

روش‌شناسی تحقیق

روش‌شناسی MTTR نمایانگر اوج همگرایی بین پیشرفت‌های بینایی ماشین و پردازش زبان طبیعی، به ویژه در زمینه مدل‌های ترانسفورمر است. هسته اصلی نوآوری در این مقاله، توانایی یک ترانسفورمر چندوجهی واحد برای پردازش همزمان اطلاعات دیداری (ویدئو) و اطلاعات متنی (ارجاع) است.

مدل‌سازی RVOS به عنوان یک مسئله پیش‌بینی دنباله:

بر خلاف رویکردهای سنتی که RVOS را به ماژول‌های جداگانه برای ردیابی، قطعه‌بندی و درک متن تقسیم می‌کنند، MTTR این مسئله را به عنوان یک وظیفه سرتاسری پیش‌بینی دنباله مطرح می‌کند. این بدان معناست که مدل مستقیماً و به صورت یکپارچه، از ورودی خام (ویدئو و متن) تا خروجی نهایی (دنباله‌ای از ماسک‌های قطعه‌بندی شده برای شیء مورد نظر در طول فریم‌ها)، آموزش می‌بیند. این رویکرد الهام گرفته از موفقیت‌های اخیر ترانسفورمرها در پردازش زبان طبیعی (مانند مدل‌های Bert و GPT) و بینایی ماشین (مانند Vision Transformer و DETR) است.

معماری ترانسفورمر چندوجهی:

MTTR از یک معماری ترانسفورمر بهره می‌برد که قادر است اطلاعات ویدئویی و متنی را در یک فضای مشترک ترکیب کند. این معماری شامل:

  • انکدر (Encoder): اطلاعات ویدئویی (فریم‌های ویدئو) و اطلاعات متنی (توصیف شیء) به توکن‌ها یا ویژگی‌های embed شده تبدیل می‌شوند. سپس این توکن‌ها وارد یک انکدر ترانسفورمر می‌شوند که روابط پیچیده بین عناصر دیداری و متنی را درک می‌کند. به عنوان مثال، انکدر می‌تواند تشخیص دهد که واژه “قرمز” در متن به پیکسل‌های قرمز رنگ در ویدئو اشاره دارد.
  • دکدر (Decoder): پس از پردازش توسط انکدر، دکدر ترانسفورمر، دنباله‌ای از queryهای شیء را دریافت می‌کند. این queryها به صورت تکراری با ویژگی‌های ترکیبی از انکدر تعامل می‌کنند تا اطلاعات لازم برای پیش‌بینی ماسک‌های قطعه‌بندی را در هر فریم استخراج کنند. دکدر مسئول تولید خروجی نهایی، یعنی ماسک‌های دقیق برای شیء ارجاعی در هر فریم، است.

ویژگی‌های متمایز کننده:

  • پردازش یکپارچه: برخلاف روش‌های پیشین که اطلاعات متنی را در مراحل میانی به عنوان سوگیری‌های القایی برای راهنمایی تشخیص یا ردیابی استفاده می‌کردند، MTTR این اطلاعات را به صورت بومی و از طریق مکانیسم توجه (attention mechanism) ترانسفورمر، در فرایند کلی مدل ادغام می‌کند. این رویکرد نیاز به مؤلفه‌های جداگانه با سوگیری‌های القایی خاص برای متن را از بین می‌برد.
  • حذف پس‌پردازش: بسیاری از روش‌های قطعه‌بندی نیاز به مراحل پس‌پردازش پیچیده برای پالایش ماسک‌های تولید شده دارند (مثلاً برای پر کردن سوراخ‌ها یا صاف کردن لبه‌ها). MTTR با طراحی کارآمد دکدر خود، قادر است ماسک‌های با کیفیت بالا را مستقیماً تولید کند، که منجر به ساده‌سازی بیشتر خط‌لوله و کاهش سربار محاسباتی می‌شود.
  • مدل‌سازی ردیابی به صورت ضمنی: در MTTR، ردیابی شیء به صورت ضمنی و به عنوان بخشی از مسئله پیش‌بینی دنباله انجام می‌شود. مدل به جای اینکه شیء را فریم به فریم ردیابی کند، یاد می‌گیرد که هویت شیء ارجاعی را در طول زمان حفظ کند و ماسک‌های آن را در تمام فریم‌های مرتبط پیش‌بینی کند. این رویکرد به MTTR کمک می‌کند تا حتی در شرایط انسداد جزئی یا کامل نیز عملکرد خوبی داشته باشد.

در مجموع، روش‌شناسی MTTR نه تنها از نظر محاسباتی کارآمدتر است، بلکه از نظر مفهومی نیز یکپارچگی بیشتری دارد و این امکان را فراهم می‌آورد که روابط پیچیده بین متن و ویدئو به صورت عمیق‌تر و جامع‌تر توسط مدل آموخته شوند.

یافته‌های کلیدی

عملکرد MTTR در مقایسه با روش‌های پیشین، نشان‌دهنده یک جهش قابل توجه در زمینه RVOS است. این دستاوردها نه تنها از نظر کمی چشمگیر هستند بلکه از نظر کیفی نیز نشان‌دهنده استحکام و کارایی مدل هستند.

عملکرد برتر بر روی معیارهای استاندارد:

  • بهبود mAP در A2D-Sentences: MTTR توانست بهبود قابل توجهی معادل +5.7 mAP (میانگین دقت متوسط) را در مجموعه داده A2D-Sentences به دست آورد. این مجموعه داده شامل ویدئوهای اکشن با توضیحات متنی است و بهبود در آن نشان‌دهنده توانایی مدل در درک همزمان افعال و اشیاء در محیط‌های پویاست.
  • بهبود mAP در JHMDB-Sentences: در مجموعه داده JHMDB-Sentences، که بر روی حرکات انسان و اشیاء مرتبط با آن تمرکز دارد، MTTR موفق به کسب بهبود +5.0 mAP شد. این نشان می‌دهد که مدل در سناریوهایی که اشیاء ممکن است درگیر تعاملات پیچیده باشند، به خوبی عمل می‌کند.
  • نتایج قوی در Refer-YouTube-VOS: این مجموعه داده به عنوان یکی از چالش‌برانگیزترین بنچمارک‌ها برای RVOS شناخته می‌شود، زیرا شامل ویدئوهای طولانی‌تر، انسدادهای بیشتر، و توضیحات متنی پیچیده‌تر است. MTTR در این مجموعه داده نیز نتایج قوی و قابل توجهی را گزارش کرده است، که نشان‌دهنده تعمیم‌پذیری و استحکام مدل در سناریوهای دنیای واقعی است.

سرعت پردازش بالا:

یکی دیگر از دستاوردهای مهم MTTR، کارایی محاسباتی آن است. مدل قادر است 76 فریم در ثانیه را پردازش کند. این سرعت بالا نه تنها از نظر تئوری بلکه برای کاربردهای عملی نیز بسیار حائز اهمیت است، زیرا امکان استفاده از مدل در سیستم‌های بی‌درنگ (real-time) یا نزدیک به بی‌درنگ را فراهم می‌آورد. این سرعت به دلیل معماری یکپارچه و حذف مراحل پس‌پردازش پیچیده به دست آمده است.

مزایای کیفی و عملی:

  • پایداری در ردیابی (Robust Tracking): به دلیل مدل‌سازی end-to-end و توانایی ترانسفورمر در حفظ اطلاعات هویتی شیء در طول زمان، MTTR پایداری بیشتری در ردیابی شیء در شرایط دشوار مانند انسداد، تغییرات نور، و تغییرات مقیاس نشان می‌دهد.
  • دقت در مرزهای قطعه‌بندی (Precise Segmentation Masks): مدل قادر است ماسک‌های قطعه‌بندی با مرزهای دقیق تولید کند، بدون نیاز به مراحل پس‌پردازش اضافی. این نشان‌دهنده توانایی بالای دکدر ترانسفورمر در تولید خروجی‌های پیکسلی با کیفیت است.
  • ساده‌سازی خط‌لوله (Pipeline Simplification): فراتر از بهبود عملکرد، ساده‌سازی چشمگیر خط‌لوله RVOS به خودی خود یک دستاورد بزرگ است. این امر نه تنها توسعه و دیباگ کردن مدل را آسان‌تر می‌کند بلکه به محققان اجازه می‌دهد تا بر روی جنبه‌های پیچیده‌تر مسئله مانند درک عمیق‌تر معنایی تمرکز کنند.

این یافته‌ها به وضوح نشان می‌دهند که MTTR یک پیشرفت مهم در زمینه RVOS است و استاندارد جدیدی را برای عملکرد و کارایی در این حوزه تعیین می‌کند.

کاربردها و دستاوردها

دستاوردها و رویکرد نوآورانه MTTR پتانسیل بالایی برای تحول در طیف وسیعی از کاربردها در حوزه‌های مختلف فراهم می‌آورد. توانایی قطعه‌بندی دقیق یک شیء خاص در یک ویدئو بر اساس توضیحات متنی، درهایی را به روی تعاملات هوشمندتر و کارآمدتر با محتوای ویدئویی می‌گشاید.

کاربردهای عملی:

  • ویرایش و تولید محتوای ویدئویی:
    • ویرایش هوشمند: تصور کنید یک تدوینگر ویدئو می‌تواند با دستوراتی مانند “آن گربه خاکستری را از صحنه حذف کن” یا “رنگ لباس بازیگر اصلی را تغییر بده”، به طور خودکار شیء مورد نظر را انتخاب و تغییر دهد. MTTR این کار را بدون نیاز به انتخاب دستی فریم به فریم، ممکن می‌سازد.
    • افزودن جلوه‌های ویژه: اعمال جلوه‌های ویژه بر روی یک شیء خاص در طول یک ویدئو به صورت خودکار، که به طور چشمگیری زمان و هزینه تولید را کاهش می‌دهد.
  • تعامل انسان و رایانه (Human-Computer Interaction – HCI):
    • سیستم‌های دستیار هوشمند: در آینده، کاربران می‌توانند با دستورات صوتی به سیستم‌های دوربین هوشمند بگویند “آن دوچرخه‌سوار قرمزپوش را دنبال کن” یا “وقتی توپ از خط رد شد، به من خبر بده”.
    • واقعیت افزوده (Augmented Reality – AR): در کاربردهای AR، می‌توان اشیاء دنیای واقعی را با توضیحات متنی شناسایی کرده و سپس اطلاعات یا جلوه‌های مجازی را به طور دقیق روی آنها اعمال کرد.
  • نظارت و امنیت:
    • جستجوی هدفمند: سیستم‌های نظارتی می‌توانند با دستوراتی مانند “فردی با کت آبی که وارد ساختمان شد را پیدا کن” یا “ماشین مشکی رنگی که در پارکینگ پارک کرد را شناسایی کن”، به سرعت اشیاء یا افراد مورد نظر را در ویدئوهای طولانی ردیابی و هایلایت کنند.
    • هشدار هوشمند: ایجاد هشدارهای خودکار بر اساس رخدادهای توصیف‌شده با متن، مانند “اگر کسی به جعبه‌ای که روی میز است دست زد، هشدار بده”.
  • رباتیک و اتوماسیون:
    • درک دستورات ربات: ربات‌ها می‌توانند دستورات پیچیده‌تری را درک کنند، مانند “آن شیء آبی رنگ را بردار” یا “به سمت شخصی که در حال صحبت کردن است حرکت کن”، که به آنها اجازه می‌دهد در محیط‌های پویا با دقت بیشتری عمل کنند.
  • بازیابی و سازماندهی محتوای ویدئویی:
    • جستجو در آرشیو: امکان جستجو در آرشیوهای بزرگ ویدئویی با کوئری‌های متنی دقیق برای یافتن لحظاتی خاص که یک شیء یا رویداد خاص در آنها ظاهر می‌شود.

دستاوردها و تأثیر بر جامعه علمی:

  • پیشرو در مدل‌های چندوجهی: MTTR به وضوح نشان می‌دهد که مدل‌های ترانسفورمر چندوجهی، قادر به ادغام مؤثر و سرتاسری اطلاعات از مودالیته‌های مختلف (متن و ویدئو) هستند. این یک گام مهم به سمت سیستم‌های هوش مصنوعی واقعاً جامع است.
  • الگویی برای ساده‌سازی: این مقاله نشان می‌دهد که پیچیدگی‌های معماری لزوماً منجر به عملکرد بهتر نمی‌شوند. گاهی اوقات، یک رویکرد ساده‌تر و یکپارچه‌تر می‌تواند هم کارایی و هم عملکرد بالاتری داشته باشد.
  • ایجاد بنچمارک‌های جدید: با ارائه نتایج برجسته بر روی Refer-YouTube-VOS، MTTR توجه جامعه تحقیقاتی را به سمت این مجموعه داده چالش‌برانگیز جلب می‌کند و زمینه را برای تحقیقات آینده فراهم می‌آورد.

در نهایت، MTTR نه تنها یک راه‌حل کارآمد برای RVOS ارائه می‌دهد، بلکه الهام‌بخش نسل بعدی مدل‌های هوش مصنوعی است که قادر به درک و تعامل پیچیده با دنیای چندوجهی اطراف ما خواهند بود.

نتیجه‌گیری

مقاله “End-to-End Referring Video Object Segmentation with Multimodal Transformers” یک نقطه عطف مهم در حوزه قطعه‌بندی ویدئویی ارجاعی اشیاء (RVOS) محسوب می‌شود. با معرفی چارچوب MTTR، نویسندگان به شکلی ظریف و کارآمد، پیچیدگی‌های ذاتی این وظیفه چندوجهی را مورد هدف قرار داده‌اند.

دستاورد اصلی MTTR در توانایی آن برای مدل‌سازی RVOS به عنوان یک مسئله پیش‌بینی دنباله سرتاسری با استفاده از یک ترانسفورمر چندوجهی واحد نهفته است. این رویکرد، در مقایسه با روش‌های پیشین که به خط‌لوله‌های چندمرحله‌ای و پیچیده متکی بودند، نه تنها خط‌لوله را به طور چشمگیری ساده‌سازی می‌کند، بلکه نیاز به سوگیری‌های القایی مرتبط با متن و مراحل پس‌پردازش اصلاح ماسک را نیز از بین می‌برد.

نتایج تجربی به وضوح برتری MTTR را نشان می‌دهند. بهبودهای قابل توجه در معیارهای عملکردی مانند mAP در مجموعه داده‌های استاندارد نظیر A2D-Sentences و JHMDB-Sentences، در کنار کارایی بالا در پردازش 76 فریم در ثانیه، شاهدی بر قدرت و کارایی این مدل است. علاوه بر این، عملکرد قوی بر روی مجموعه داده چالش‌برانگیز Refer-YouTube-VOS، پتانسیل MTTR را برای کاربردهای واقعی و سناریوهای پیچیده‌تر تأیید می‌کند.

این پژوهش نه تنها یک راهکار پیشرو برای RVOS ارائه می‌دهد، بلکه راه را برای توسعه مدل‌های هوش مصنوعی جامع‌تر هموار می‌سازد که می‌توانند به طور مؤثر اطلاعات را از مودالیته‌های مختلف ادغام و پردازش کنند. کاربردهای این فناوری از ویرایش ویدئو و تعامل انسان و رایانه گرفته تا نظارت امنیتی و رباتیک، بسیار گسترده و تحول‌آفرین هستند.

در مجموع، MTTR یک گام رو به جلو در جهت ساخت سیستم‌های هوش مصنوعی است که می‌توانند دنیای ما را به همان شکلی که انسان‌ها می‌بینند و توصیف می‌کنند، درک کنند و با آن تعامل داشته باشند. این مقاله تأکید می‌کند که سادگی در طراحی مدل، وقتی با قدرت معماری‌های مدرن مانند ترانسفورمرها ترکیب شود، می‌تواند به نتایجی فراتر از انتظارات دست یابد و مسیرهای جدیدی را برای تحقیقات آتی در هوش مصنوعی باز کند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “مقاله قطعه‌بندی ویدئویی ارجاعی اشیاء با ترانسفورمرهای چندوجهی به همراه PDF فارسی + پادکست صوتی فارسی + ویدیو آموزشی فارسی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا