| عنوان مقاله به انگلیسی | Annotation Sensitivity: Training Data Collection Methods Affect Model Performance |
| عنوان مقاله به فارسی | مقاله حساسیت حاشیه نویسی: روشهای جمع آوری داده های آموزش بر عملکرد مدل تأثیر می گذارد |
| نویسندگان | Christoph Kern, Stephanie Eckman, Jacob Beck, Rob Chew, Bolei Ma, Frauke Kreuter |
| زبان مقاله | انگلیسی |
| فرمت مقاله: | |
| تعداد صفحات | 13 |
| دسته بندی موضوعات | Machine Learning,Computation and Language,Machine Learning,Methodology,یادگیری ماشین , محاسبه و زبان , یادگیری ماشین , روش شناسی , |
| توضیحات | Submitted 23 November, 2023; originally announced November 2023. , Comments: EMNLP 2023 Findings |
| توضیحات به فارسی | ارسال شده 23 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد. ، نظرات: یافته های EMNLP 2023 |
چکیده
When training data are collected from human annotators, the design of the annotation instrument, the instructions given to annotators, the characteristics of the annotators, and their interactions can impact training data. This study demonstrates that design choices made when creating an annotation instrument also impact the models trained on the resulting annotations. We introduce the term annotation sensitivity to refer to the impact of annotation data collection methods on the annotations themselves and on downstream model performance and predictions. We collect annotations of hate speech and offensive language in five experimental conditions of an annotation instrument, randomly assigning annotators to conditions. We then fine-tune BERT models on each of the five resulting datasets and evaluate model performance on a holdout portion of each condition. We find considerable differences between the conditions for 1) the share of hate speech/offensive language annotations, 2) model performance, 3) model predictions, and 4) model learning curves. Our results emphasize the crucial role played by the annotation instrument which has received little attention in the machine learning literature. We call for additional research into how and why the instrument impacts the annotations to inform the development of best practices in instrument design.
چکیده به فارسی (ترجمه ماشینی)
هنگامی که داده های آموزش از حاشیه نویسی های انسانی ، طراحی ابزار حاشیه نویسی ، دستورالعمل های داده شده به حاشیه نویسان ، ویژگی های حاشیه نویسی و تعامل آنها می تواند بر داده های آموزشی تأثیر بگذارد.این مطالعه نشان می دهد که گزینه های طراحی در هنگام ایجاد یک ابزار حاشیه نویسی نیز بر مدل های آموزش داده شده بر روی حاشیه نویسی های حاصل تأثیر می گذارد.ما اصطلاح حساسیت حاشیه نویسی را معرفی می کنیم تا به تأثیر روشهای جمع آوری داده های حاشیه نویسی در خود حاشیه نویسی ها و عملکرد و پیش بینی های مدل پایین دست اشاره کنیم.ما حاشیه نویسی از گفتار نفرت و زبان توهین آمیز را در پنج شرایط آزمایشی یک ابزار حاشیه نویسی جمع می کنیم و به طور تصادفی حاشیه نویسی را به شرایط اختصاص می دهیم.سپس مدل های BERT را در هر یک از پنج مجموعه داده حاصل تنظیم می کنیم و عملکرد مدل را در بخش نگهدارنده از هر شرایط ارزیابی می کنیم.ما تفاوتهای قابل توجهی بین شرایط 1) سهم حاشیه نویسی گفتار نفرت/تهاجمی زبان ، 2) عملکرد مدل ، 3) پیش بینی مدل و 4) منحنی های یادگیری مدل مشاهده می کنیم.نتایج ما بر نقش اساسی ایفا شده توسط ابزار حاشیه نویسی که مورد توجه کمی در ادبیات یادگیری ماشین قرار گرفته است ، تأکید می کند.ما خواستار تحقیقات اضافی در مورد چگونگی و چرایی این ابزار برای آگاهی از توسعه بهترین شیوه ها در طراحی ابزار هستیم.
| توجه کنید این مقاله به زبان انگلیسی است. |
|
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|


نقد و بررسیها
هنوز بررسیای ثبت نشده است.