| عنوان مقاله به انگلیسی | UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله UniBench: استدلال بصری نیازمند بازنگری در زبان بینایی فراتر از مقیاسبندی است |
| نویسندگان | Haider Al-Tahan, Quentin Garrido, Randall Balestriero, Diane Bouchacourt, Caner Hazirbas, Mark Ibrahim |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 24 |
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Artificial Intelligence,Machine Learning,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , یادگیری ماشین , |
| توضیحات | Submitted 8 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده در 8 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 960,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Significant research efforts have been made to scale and improve vision-language model (VLM) training approaches. Yet, with an ever-growing number of benchmarks, researchers are tasked with the heavy burden of implementing each protocol, bearing a non-trivial computational cost, and making sense of how all these benchmarks translate into meaningful axes of progress. To facilitate a systematic evaluation of VLM progress, we introduce UniBench: a unified implementation of 50+ VLM benchmarks spanning a comprehensive range of carefully categorized capabilities from object recognition to spatial awareness, counting, and much more. We showcase the utility of UniBench for measuring progress by evaluating nearly 60 publicly available vision-language models, trained on scales of up to 12.8B samples. We find that while scaling training data or model size can boost many vision-language model capabilities, scaling offers little benefit for reasoning or relations. Surprisingly, we also discover today’s best VLMs struggle on simple digit recognition and counting tasks, e.g. MNIST, which much simpler networks can solve. Where scale falls short, we find that more precise interventions, such as data quality or tailored-learning objectives offer more promise. For practitioners, we also offer guidance on selecting a suitable VLM for a given application. Finally, we release an easy-to-run UniBench code-base with the full set of 50+ benchmarks and comparisons across 59 models as well as a distilled, representative set of benchmarks that runs in 5 minutes on a single GPU.
چکیده به فارسی (ترجمه ماشینی)
تلاش های تحقیقاتی قابل توجهی برای مقیاس و بهبود رویکردهای آموزشی مدل بینایی زبان (VLM) انجام شده است.با این حال ، با تعداد معیارهای رو به رشد ، محققان وظیفه سنگین اجرای هر پروتکل ، تحمل هزینه محاسباتی غیر مهم را دارند و درک می کنند که چگونه همه این معیارها به محورهای معنی دار پیشرفت تبدیل می شوند.برای تسهیل یک ارزیابی منظم از پیشرفت VLM ، ما Unibench را معرفی می کنیم: اجرای یکپارچه از معیارهای 50+ VLM که دامنه کاملی از قابلیت های طبقه بندی شده با دقت از شناخت شی تا آگاهی مکانی ، شمارش و موارد دیگر را دارد.ما با ارزیابی نزدیک به 60 مدل چشم انداز در دسترس عموم ، که در مقیاس های حداکثر نمونه 12.8B آموزش داده شده است ، ما ابزار Unibench را برای اندازه گیری پیشرفت به نمایش می گذاریم.ما می دانیم که در حالی که مقیاس داده های آموزش یا اندازه مدل می تواند بسیاری از قابلیت های مدل چشم انداز را تقویت کند ، مقیاس گذاری فواید کمی برای استدلال یا روابط دارد.با کمال تعجب ، ما همچنین بهترین مبارزات VLMS امروز را در زمینه شناخت و شمارش رقم ساده ، به عنوان مثال کشف می کنیم.mnist ، که شبکه های بسیار ساده تر می توانند آن را حل کنند.در جایی که مقیاس کوتاه است ، می فهمیم که مداخلات دقیق تر ، مانند کیفیت داده یا اهداف یادگیری مناسب ، نوید بیشتری را ارائه می دهند.برای پزشکان ، ما همچنین راهنمایی در مورد انتخاب VLM مناسب برای یک برنامه خاص ارائه می دهیم.سرانجام ، ما یک پایه کد Unibench آسان برای اجرای با مجموعه کامل 50+ معیار و مقایسه در 59 مدل و همچنین مجموعه ای از معیارهای مقطر و مقطر که در 5 دقیقه در یک GPU واحد اجرا می شود ، منتشر می کنیم.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.