| عنوان مقاله به انگلیسی | Eureka: Evaluating and Understanding Large Foundation Models | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله Eureka: ارزیابی و درک مدلهای بزرگ بنیاد | ||||||||
| نویسندگان | Vidhisha Balachandran, Jingya Chen, Neel Joshi, Besmira Nushi, Hamid Palangi, Eduardo Salinas, Vibhav Vineet, James Woffinden-Luey, Safoora Yousefi | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 55 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,Computation and Language,Computer Vision and Pattern Recognition,یادگیری ماشین , هوش مصنوعی , محاسبات و زبان , چشم انداز رایانه و تشخیص الگوی , | ||||||||
| توضیحات | Submitted 13 September, 2024; originally announced September 2024. , ACM Class: I.2 | ||||||||
| توضیحات به فارسی | ارسال شده 13 سپتامبر 2024 ؛در ابتدا در سپتامبر 2024 اعلام شد. ، کلاس ACM: I.2 | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Rigorous and reproducible evaluation is critical for assessing the state of the art and for guiding scientific advances in Artificial Intelligence. Evaluation is challenging in practice due to several reasons, including benchmark saturation, lack of transparency in methods used for measurement, development challenges in extracting measurements for generative tasks, and, more generally, the extensive number of capabilities required for a well-rounded comparison across models. We make three contributions to alleviate the above challenges. First, we present Eureka, an open-source framework for standardizing evaluations of large foundation models beyond single-score reporting and rankings. Second, we introduce Eureka-Bench as an extensible collection of benchmarks testing capabilities that (i) are still challenging for state-of-the-art models and (ii) represent fundamental but overlooked language and multimodal capabilities. The inherent space for improvement in non-saturated benchmarks enables us to discover meaningful differences between models at a capability level. Third, using Eureka, we conduct an analysis of 12 state-of-the-art models, providing in-depth insights into failure understanding and model comparison, which can be leveraged to plan targeted improvements. In contrast to recent trends in reports and leaderboards showing absolute rankings and claims for one model or another to be the best, our analysis shows that there is no such best model. Different models have different strengths, but there are models that appear more often than others as best performers for some capabilities. Despite the recent improvements, current models still struggle with several fundamental capabilities including detailed image understanding, benefiting from multimodal input when available rather than fully relying on language, factuality and grounding for information retrieval, and over refusals.
چکیده به فارسی (ترجمه ماشینی)
ارزیابی دقیق و قابل تکرار برای ارزیابی وضعیت هنر و هدایت پیشرفت های علمی در هوش مصنوعی بسیار مهم است.ارزیابی در عمل به دلایل مختلف ، از جمله اشباع معیار ، عدم شفافیت در روشهای مورد استفاده برای اندازه گیری ، چالش های توسعه در استخراج اندازه گیری برای کارهای تولیدی ، و به طور کلی تعداد گسترده ای از قابلیت های مورد نیاز برای مقایسه خوب در کل ، چالش برانگیز است.مدل ها.ما سه کمک برای کاهش چالش های فوق انجام می دهیم.اول ، ما Eureka را ارائه می دهیم ، یک چارچوب منبع باز برای استاندارد سازی ارزیابی مدلهای بنیادی بزرگ فراتر از گزارش و رتبه بندی تک امتیاز.دوم ، ما Eureka-Bench را به عنوان مجموعه ای گسترده از قابلیت های آزمایش معیارها معرفی می کنیم که (I) هنوز هم برای مدلهای پیشرفته چالش برانگیز است و (ب) نمایانگر زبان اساسی اما نادیده گرفته و قابلیت های چند مدلی است.فضای ذاتی برای بهبود در معیارهای غیر اشباع شده ما را قادر می سازد تا تفاوت های معنی دار بین مدل ها را در یک سطح توانایی کشف کنیم.سوم ، با استفاده از Eureka ، ما تجزیه و تحلیل از 12 مدل پیشرفته را انجام می دهیم ، و بینش های عمیق در مورد درک شکست و مقایسه مدل ارائه می دهیم ، که می تواند برای برنامه ریزی پیشرفت های هدفمند استفاده شود.برخلاف روندهای اخیر در گزارش ها و تابلوهای رهبری که رتبه بندی مطلق و ادعاهای یک مدل یا مدل دیگر را نشان می دهد ، تجزیه و تحلیل ما نشان می دهد که چنین بهترین مدل وجود ندارد.مدل های مختلف دارای نقاط قوت متفاوتی هستند ، اما مدلهایی وجود دارند که بیشتر از سایرین به عنوان بهترین مجریان برای برخی از قابلیت ها ظاهر می شوند.با وجود پیشرفت های اخیر ، مدل های فعلی هنوز با چندین قابلیت اساسی از جمله درک دقیق تصویر ، از ورودی چند حالته در صورت موجود بودن به جای تکیه کامل به زبان ، واقعی بودن و زمینه برای بازیابی اطلاعات و بیش از حد ، مبارزه می کنند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.