| عنوان مقاله به انگلیسی | Towards Transferable Multi-modal Perception Representation Learning for Autonomy: NeRF-Supervised Masked AutoEncoder |
| عنوان مقاله به فارسی | مقاله یادگیری بازنمایی درک چند منظوره قابل انتقال برای خودمختاری: خودرمزگذار ماسک تحت نظارت NERF |
| نویسندگان | Xiaohao Xu |
| زبان مقاله | انگلیسی |
| فرمت مقاله: | |
| تعداد صفحات | 0 |
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Artificial Intelligence,Machine Learning,Robotics,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , یادگیری ماشین , روباتیک , |
| توضیحات | Submitted 22 November, 2023; originally announced November 2023. |
| توضیحات به فارسی | ارسال شده 22 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد. |
چکیده
This work proposes a unified self-supervised pre-training framework for transferable multi-modal perception representation learning via masked multi-modal reconstruction in Neural Radiance Field (NeRF), namely NeRF-Supervised Masked AutoEncoder (NS-MAE). Specifically, conditioned on certain view directions and locations, multi-modal embeddings extracted from corrupted multi-modal input signals, i.e., Lidar point clouds and images, are rendered into projected multi-modal feature maps via neural rendering. Then, original multi-modal signals serve as reconstruction targets for the rendered multi-modal feature maps to enable self-supervised representation learning. Extensive experiments show that the representation learned via NS-MAE shows promising transferability for diverse multi-modal and single-modal (camera-only and Lidar-only) perception models on diverse 3D perception downstream tasks (3D object detection and BEV map segmentation) with diverse amounts of fine-tuning labeled data. Moreover, we empirically find that NS-MAE enjoys the synergy of both the mechanism of masked autoencoder and neural radiance field. Our code shall be released upon acceptance.
چکیده به فارسی (ترجمه ماشینی)
این کار یک چارچوب قبل از آموزش یکپارچه خود را برای یادگیری بازنمایی درک چند منظوره قابل انتقال از طریق بازسازی چند منظوره نقاب دار در زمینه تابش عصبی (NERF) ، یعنی Autoencoder ماسک شده با ماسک (NS-MAE) ارائه می دهد.به طور خاص ، مشروط بر جهت ها و مکان های خاص ، تعبیه های چند حالته استخراج شده از سیگنال های ورودی چند منظوره فاسد ، یعنی ابرهای و تصاویر نقطه LiDAR ، از طریق ارائه عصبی به نقشه های ویژگی چند مدلی پیش بینی شده منتقل می شوند.سپس ، سیگنال های چند منظوره اصلی به عنوان اهداف بازسازی برای نقشه های ویژگی چند منظوره ارائه شده برای فعال کردن یادگیری بازنمایی خودکاره شده عمل می کنند.آزمایش های گسترده نشان می دهد که بازنمایی که از طریق NS-MAE آموخته می شود ، قابلیت انتقال امیدوارکننده را برای مدلهای ادراک متنوع چند منظوره و تک حالت (فقط دوربین و فقط LIDAR) بر روی ادراک سه بعدی متنوع پایین دست (تشخیص شیء سه بعدی و تقسیم بندی نقشه BEV) نشان می دهد.مقادیر متنوعی از داده های دارای برچسب خوب.علاوه بر این ، ما به صورت تجربی متوجه می شویم که NS-MAE از هم افزایی هم مکانیسم Autoencoder نقاب دار و میدان تابش عصبی لذت می برد.کد ما پس از پذیرش آزاد می شود.
| توجه کنید این مقاله به زبان انگلیسی است. |
|
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|



نقد و بررسیها
هنوز بررسیای ثبت نشده است.