عنوان مقاله به انگلیسی | Evaluating GPT-4’s Vision Capabilities on Brazilian University Admission Exams |
عنوان مقاله به فارسی | مقاله ارزیابی قابلیت های دید GPT-4 در امتحانات پذیرش دانشگاه برزیل |
نویسندگان | Ramon Pires, Thales Sales Almeida, Hugo Abonizio, Rodrigo Nogueira |
زبان مقاله | انگلیسی |
فرمت مقاله: | |
تعداد صفحات | 6 |
دسته بندی موضوعات | Computation and Language,Artificial Intelligence,Machine Learning,محاسبه و زبان , هوش مصنوعی , یادگیری ماشین , |
توضیحات | Submitted 23 November, 2023; originally announced November 2023. , Comments: arXiv admin note: substantial text overlap with arXiv:2303.17003 |
توضیحات به فارسی | ارسال شده 23 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد. ، نظرات: Arxiv Admin توجه: متن قابل توجهی با ARXIV همپوشانی دارد: 2303.17003 |
چکیده
Recent advancements in language models have showcased human-comparable performance in academic entrance exams. However, existing studies often overlook questions that require the integration of visual comprehension, thus compromising the full spectrum and complexity inherent in real-world scenarios. To address this gap, we present a comprehensive framework to evaluate language models on entrance exams, which incorporates both textual and visual elements. We evaluate the two most recent editions of Exame Nacional do Ensino Médio (ENEM), the main standardized entrance examination adopted by Brazilian universities. Our study not only reaffirms the capabilities of GPT-4 as the state of the art for handling complex multidisciplinary questions, but also pioneers in offering a realistic assessment of multimodal language models on Portuguese examinations. One of the highlights is that text captions transcribing visual content outperform the direct use of images, suggesting that the vision model has room for improvement. Yet, despite improvements afforded by images or captions, mathematical questions remain a challenge for these state-of-the-art models. The code and data used on experiments are available at https://github.com/piresramon/gpt-4-enem.
چکیده به فارسی (ترجمه ماشینی)
پیشرفت های اخیر در مدل های زبان عملکرد قابل مقایسه ای انسانی را در امتحانات ورودی دانشگاهی نشان داده است.با این حال ، مطالعات موجود غالباً از سؤالاتی که نیاز به ادغام درک بصری دارند ، غافل می شوند ، بنابراین طیف کامل و پیچیدگی ذاتی در سناریوهای دنیای واقعی را به خطر می اندازند.برای پرداختن به این شکاف ، ما یک چارچوب جامع برای ارزیابی مدل های زبان در امتحانات ورودی ارائه می دهیم ، که شامل عناصر متنی و تصویری است.ما دو نسخه اخیر Exame Nacional Do Ensino Médio (دشمن) را ارزیابی می کنیم ، آزمون اصلی ورودی استاندارد که توسط دانشگاه های برزیل اتخاذ شده است.مطالعه ما نه تنها توانایی های GPT-4 را به عنوان وضعیت هنر برای رسیدگی به سؤالات پیچیده چند رشته ای تأیید می کند ، بلکه پیشگامان نیز در ارائه ارزیابی واقع بینانه از مدل های زبان چندمودال در امتحانات پرتغالی.یکی از نکات برجسته این است که زیرنویس های متنی که محتوای بصری را رونویسی می کنند ، از استفاده مستقیم از تصاویر بهتر است ، نشان می دهد که مدل بینایی جایی برای بهبود دارد.با این حال ، علیرغم پیشرفت هایی که توسط تصاویر یا زیرنویس ها به وجود آمده است ، سؤالات ریاضی برای این مدل های پیشرفته یک چالش است.کد و داده های مورد استفاده در آزمایشات در https://github.com/piresramon/gpt-4-enem در دسترس است.
توجه کنید این مقاله به زبان انگلیسی است. |
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|
نقد و بررسیها
هنوز بررسیای ثبت نشده است.