| عنوان مقاله به انگلیسی | Towards Zero-Shot Annotation of the Built Environment with Vision-Language Models (Vision Paper) |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله به سوی حاشیهنویسی بدون مرز از محیط ساختهشده با مدلهای زبان-بینش (بینایی) |
| نویسندگان | Bin Han, Yiwei Yang, Anat Caspi, Bill Howe |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 4 |
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Computation and Language,چشم انداز رایانه و تشخیص الگوی , محاسبات و زبان , |
| توضیحات | Submitted 1 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده در 1 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 160,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Equitable urban transportation applications require high-fidelity digital representations of the built environment: not just streets and sidewalks, but bike lanes, marked and unmarked crossings, curb ramps and cuts, obstructions, traffic signals, signage, street markings, potholes, and more. Direct inspections and manual annotations are prohibitively expensive at scale. Conventional machine learning methods require substantial annotated training data for adequate performance. In this paper, we consider vision language models as a mechanism for annotating diverse urban features from satellite images, reducing the dependence on human annotation to produce large training sets. While these models have achieved impressive results in describing common objects in images captured from a human perspective, their training sets are less likely to include strong signals for esoteric features in the built environment, and their performance in these settings is therefore unclear. We demonstrate proof-of-concept combining a state-of-the-art vision language model and variants of a prompting strategy that asks the model to consider segmented elements independently of the original image. Experiments on two urban features — stop lines and raised tables — show that while direct zero-shot prompting correctly annotates nearly zero images, the pre-segmentation strategies can annotate images with near 40% intersection-over-union accuracy. We describe how these results inform a new research agenda in automatic annotation of the built environment to improve equity, accessibility, and safety at broad scale and in diverse environments.
چکیده به فارسی (ترجمه ماشینی)
برنامه های حمل و نقل عادلانه حمل و نقل شهری به بازنمایی های دیجیتالی با وفاداری بالا از محیط ساخته شده نیاز دارند: نه فقط خیابان ها و پیاده روها ، بلکه خطوط دوچرخه ، گذرگاه های مشخص و بدون علامت ، رمپ ها و برش های مهار ، انسداد ، سیگنال های راهنمایی و رانندگی ، علائم ، علائم خیابان ، حفره ها و موارد دیگر.بازرسی های مستقیم و حاشیه نویسی دستی در مقیاس بسیار گران است.روشهای یادگیری ماشین معمولی برای عملکرد کافی به داده های آموزش حاشیه نویسی قابل توجهی نیاز دارند.در این مقاله ، ما مدل های زبان بینایی را به عنوان مکانیسمی برای حاشیه نویسی از ویژگی های متنوع شهری از تصاویر ماهواره ای در نظر می گیریم و باعث کاهش وابستگی به حاشیه نویسی انسان برای تولید مجموعه های آموزشی بزرگ می شویم.در حالی که این مدلها در توصیف اشیاء مشترک در تصاویر ضبط شده از دیدگاه انسانی به نتایج چشمگیری رسیده اند ، مجموعه های آموزش آنها کمتر از سیگنال های قوی برای ویژگی های باطنی در محیط ساخته شده است و عملکرد آنها در این تنظیمات مشخص نیست.ما اثبات مفهوم را با ترکیب یک مدل زبان بینایی پیشرفته و انواع یک استراتژی سریع که از مدل می خواهد عناصر تقسیم شده را به طور مستقل از تصویر اصلی در نظر بگیریم ، نشان می دهیم.آزمایشات بر روی دو ویژگی شهری-خطوط متوقف و جداول مطرح شده-نشان می دهد که در حالی که صفر مستقیم به طور صحیح تصاویر تقریباً صفر را حاشیه نویسی می کند ، استراتژی های قبل از تقسیم بندی می توانند تصاویر را با نزدیک به 40 ٪ دقت در یک حاشیه حاشیه نویسی کنند.ما توضیح می دهیم که چگونه این نتایج یک برنامه تحقیقاتی جدید را در حاشیه نویسی خودکار محیط ساخته شده برای بهبود حقوق صاحبان سهام ، دسترسی و ایمنی در مقیاس گسترده و در محیط های متنوع آگاه می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.