| عنوان مقاله به انگلیسی | Is Child-Directed Speech Effective Training Data for Language Models? |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله آیا گفتار کودک محور برای مدلهای زبانی، دادههای آموزشی مؤثری است؟ |
| نویسندگان | Steven Y. Feng, Noah D. Goodman, Michael C. Frank |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 15 |
| دسته بندی موضوعات | Computation and Language,Artificial Intelligence,Machine Learning,محاسبه و زبان , هوش مصنوعی , یادگیری ماشین , |
| توضیحات | Submitted 7 August, 2024; originally announced August 2024. , Comments: Preprint. Code and data will be released soon |
| توضیحات به فارسی | ارسال شده در 7 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: preprint.کد و داده ها به زودی منتشر می شوند |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 600,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
While high-performing language models are typically trained on hundreds of billions of words, human children become fluent language users with a much smaller amount of data. What are the features of the data they receive, and how do these features support language modeling objectives? To investigate this question, we train GPT-2 models on 29M words of English-language child-directed speech and a new matched, synthetic dataset (TinyDialogues), comparing to a heterogeneous blend of datasets from the BabyLM challenge. We evaluate both the syntactic and semantic knowledge of these models using developmentally-inspired evaluations. Through pretraining experiments, we test whether the global developmental ordering or the local discourse ordering of children’s training data support high performance relative to other datasets. The local properties of the data affect model results, but somewhat surprisingly, global properties do not. Further, child language input is not uniquely valuable for training language models. These findings support the hypothesis that, rather than proceeding from better data, children’s learning is instead substantially more efficient than current language modeling techniques.
چکیده به فارسی (ترجمه ماشینی)
در حالی که مدلهای زبان با عملکرد بالا معمولاً روی صدها میلیارد کلمه آموزش می یابند ، کودکان انسانی با داده های بسیار کمتری به کاربران زبان مسلط تبدیل می شوند.ویژگی های داده ای که دریافت می کنند چیست و چگونه این ویژگی ها از اهداف مدل سازی زبان پشتیبانی می کنند؟برای بررسی این سؤال ، ما مدل های GPT-2 را بر روی 29 متر کلمات گفتار کودک به زبان انگلیسی و یک مجموعه داده جدید و مصنوعی (Tinydialogues) آموزش می دهیم ، و در مقایسه با ترکیبی ناهمگن از مجموعه داده ها از چالش BabyLM.ما دانش نحوی و معنایی این مدل ها را با استفاده از ارزیابی های الهام گرفته از توسعه ارزیابی می کنیم.از طریق آزمایش های پیش نویس ، ما آزمایش می کنیم که آیا سفارش جهانی توسعه یا ترتیب گفتمان محلی داده های آموزش کودکان از عملکرد بالایی نسبت به سایر مجموعه داده ها پشتیبانی می کند.خصوصیات محلی داده ها بر نتایج مدل تأثیر می گذارد ، اما به طرز حیرت انگیزی ، خصوصیات جهانی این کار را نمی کند.علاوه بر این ، ورودی زبان کودک برای مدلهای آموزش زبان منحصر به فرد نیست.این یافته ها این فرضیه را تأیید می کنند که ، به جای اینکه از داده های بهتر استفاده شود ، یادگیری کودکان در عوض از نظر تکنیک های مدل سازی زبان فعلی کارآمدتر است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.