| عنوان مقاله به انگلیسی | Unveiling the Tapestry of Automated Essay Scoring: A Comprehensive Investigation of Accuracy, Fairness, and Generalizability |
| عنوان مقاله به فارسی | مقاله رونمایی از تاپستری نمره دهی خودکار مقاله: بررسی جامع دقت، انصاف و تعمیم پذیری |
| نویسندگان | Kaixun Yang, Mladen Raković, Yuyang Li, Quanlong Guan, Dragan Gašević, Guanliang Chen |
| زبان مقاله | انگلیسی |
| فرمت مقاله: | |
| تعداد صفحات | 14 |
| دسته بندی موضوعات | Computation and Language,محاسبه و زبان , |
| توضیحات | Submitted 10 January, 2024; originally announced January 2024. |
| توضیحات به فارسی | 10 ژانویه 2024 ارسال شد.در ابتدا ژانویه 2024 اعلام شد. |
چکیده
Automatic Essay Scoring (AES) is a well-established educational pursuit that employs machine learning to evaluate student-authored essays. While much effort has been made in this area, current research primarily focuses on either (i) boosting the predictive accuracy of an AES model for a specific prompt (i.e., developing prompt-specific models), which often heavily relies on the use of the labeled data from the same target prompt; or (ii) assessing the applicability of AES models developed on non-target prompts to the intended target prompt (i.e., developing the AES models in a cross-prompt setting). Given the inherent bias in machine learning and its potential impact on marginalized groups, it is imperative to investigate whether such bias exists in current AES methods and, if identified, how it intervenes with an AES model’s accuracy and generalizability. Thus, our study aimed to uncover the intricate relationship between an AES model’s accuracy, fairness, and generalizability, contributing practical insights for developing effective AES models in real-world education. To this end, we meticulously selected nine prominent AES methods and evaluated their performance using seven metrics on an open-sourced dataset, which contains over 25,000 essays and various demographic information about students such as gender, English language learner status, and economic status. Through extensive evaluations, we demonstrated that: (1) prompt-specific models tend to outperform their cross-prompt counterparts in terms of predictive accuracy; (2) prompt-specific models frequently exhibit a greater bias towards students of different economic statuses compared to cross-prompt models; (3) in the pursuit of generalizability, traditional machine learning models coupled with carefully engineered features hold greater potential for achieving both high accuracy and fairness than complex neural network models.
چکیده به فارسی (ترجمه ماشینی)
امتیاز دهی مقاله خودکار (AES) یک تعقیب آموزشی کاملاً تثبیت شده است که از یادگیری ماشین برای ارزیابی مقاله های نویسنده دانشجویی استفاده می کند.در حالی که تلاش زیادی در این زمینه انجام شده است ، تحقیقات فعلی در درجه اول بر روی (i) تقویت دقت پیش بینی یک مدل AES برای یک فرایند خاص (یعنی توسعه مدلهای خاص سریع) متمرکز شده است ، که اغلب به شدت به استفاده از آن متکی استداده های دارای برچسب از همان سریع هدف ؛یا (ب) ارزیابی کاربردی مدل های AES که در اعلان های غیر هدف به سمت هدف مورد نظر انجام شده است (به عنوان مثال ، توسعه مدل های AES در یک تنظیم متقابل).با توجه به تعصب ذاتی در یادگیری ماشین و تأثیر بالقوه آن بر گروههای حاشیه نشین ، ضروری است که آیا چنین تعصب در روشهای فعلی AES وجود دارد و در صورت شناسایی ، نحوه مداخله با دقت و قابلیت تعمیم مدل AES.بنابراین ، مطالعه ما با هدف کشف روابط پیچیده بین دقت ، انصاف و قابلیت تعمیم مدل AES ، کمک به بینش های عملی برای توسعه مدلهای AES مؤثر در آموزش دنیای واقعی.برای این منظور ، ما با دقت نه روش برجسته AES را انتخاب کردیم و عملکرد آنها را با استفاده از هفت معیار در یک مجموعه داده با منبع باز ارزیابی کردیم ، که حاوی بیش از 25،000 مقاله و اطلاعات جمعیتی مختلف در مورد دانش آموزان مانند جنسیت ، وضعیت یادگیرنده زبان انگلیسی و وضعیت اقتصادی است.از طریق ارزیابی های گسترده ، ما نشان دادیم که: (1) مدلهای خاص و سریع تمایل دارند که از نظر دقت پیش بینی کننده از همتایان متقاطع خود بهتر عمل کنند.(2) مدل های خاص و سریع اغلب در مقایسه با مدل های متقاطع ، تعصب بیشتری نسبت به دانشجویان با وضعیت اقتصادی مختلف نشان می دهند.(3) در جستجوی تعمیم پذیری ، مدل های یادگیری ماشین سنتی همراه با ویژگی های با دقت مهندسی شده ، پتانسیل بیشتری برای دستیابی به دقت و انصاف نسبت به مدلهای پیچیده شبکه عصبی دارند.
| توجه کنید این مقاله به زبان انگلیسی است. |
|
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|


نقد و بررسیها
هنوز بررسیای ثبت نشده است.