| عنوان مقاله به انگلیسی | More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory |
| عنوان مقاله به فارسی | مقاله بیشتر در یادگیری ماشین مدرن بهتر است: هنگامی که پارامتری بی نهایت بهینه است و بیش از حد بیش از حد الزامی است |
| نویسندگان | James B. Simon, Dhruva Karkada, Nikhil Ghosh, Mikhail Belkin |
| زبان مقاله | انگلیسی |
| فرمت مقاله: | |
| تعداد صفحات | 40 |
| دسته بندی موضوعات | Machine Learning,Machine Learning,یادگیری ماشین , یادگیری ماشین , |
| توضیحات | Submitted 24 November, 2023; originally announced November 2023. |
| توضیحات به فارسی | ارسال شده 24 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد. |
چکیده
In our era of enormous neural networks, empirical progress has been driven by the philosophy that more is better. Recent deep learning practice has found repeatedly that larger model size, more data, and more computation (resulting in lower training loss) improves performance. In this paper, we give theoretical backing to these empirical observations by showing that these three properties hold in random feature (RF) regression, a class of models equivalent to shallow networks with only the last layer trained. Concretely, we first show that the test risk of RF regression decreases monotonically with both the number of features and the number of samples, provided the ridge penalty is tuned optimally. In particular, this implies that infinite width RF architectures are preferable to those of any finite width. We then proceed to demonstrate that, for a large class of tasks characterized by powerlaw eigenstructure, training to near-zero training loss is obligatory: near-optimal performance can only be achieved when the training error is much smaller than the test error. Grounding our theory in real-world data, we find empirically that standard computer vision tasks with convolutional neural tangent kernels clearly fall into this class. Taken together, our results tell a simple, testable story of the benefits of overparameterization, overfitting, and more data in random feature models.
چکیده به فارسی (ترجمه ماشینی)
در دوران شبکه های عصبی عظیم ما ، پیشرفت تجربی توسط این فلسفه هدایت شده است که بیشتر بهتر است.تمرین عمیق یادگیری عمیق به طور مکرر نشان داده است که اندازه مدل بزرگتر ، داده های بیشتر و محاسبات بیشتر (در نتیجه از دست دادن آموزش کمتر) باعث بهبود عملکرد می شود.در این مقاله ، ما با نشان دادن اینکه این سه ویژگی در رگرسیون ویژگی تصادفی (RF) ، یک کلاس از مدل های معادل شبکه های کم عمق با تنها آخرین لایه آموزش دیده ، به این مشاهدات تجربی پشتوانه نظری می دهیم.به طور واضح ، ما ابتدا نشان می دهیم که خطر آزمون رگرسیون RF با تعداد ویژگی ها و تعداد نمونه ها به صورت یکنواخت کاهش می یابد ، به شرط آنکه مجازات ریج بهینه تنظیم شود.به طور خاص ، این بدان معنی است که معماری RF با عرض نامحدود از هرگونه عرض محدود ارجح است.سپس ما نشان می دهیم که ، برای یک کلاس بزرگ از وظایف که با استفاده از ساختار قدرتمند PowerLaw مشخص می شوند ، آموزش از دست دادن آموزش نزدیک صفر واجب است: عملکرد تقریباً بهینه فقط در صورتی حاصل می شود که خطای آموزش بسیار کوچکتر از خطای آزمون باشد.با بیان نظریه ما در داده های دنیای واقعی ، از نظر تجربی می بینیم که وظایف استاندارد بینایی رایانه ای با هسته های مماس عصبی حلقوی به وضوح در این کلاس قرار می گیرند.روی هم رفته ، نتایج ما یک داستان ساده و قابل آزمایش از مزایای پارامتری بیش از حد ، بیش از حد و داده های بیشتر در مدل های ویژگی تصادفی را بیان می کند.
| توجه کنید این مقاله به زبان انگلیسی است. |
|
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|


نقد و بررسیها
هنوز بررسیای ثبت نشده است.