| عنوان مقاله به انگلیسی | Emergence in non-neural models: grokking modular arithmetic via average gradient outer product |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله ظهور در مدلهای غیر عصبی: بررسی حساب مدولار از طریق حاصلضرب خارجی گرادیان میانگین |
| نویسندگان | Neil Mallinar, Daniel Beaglehole, Libin Zhu, Adityanarayanan Radhakrishnan, Parthe Pandit, Mikhail Belkin |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 27 |
| دسته بندی موضوعات | Machine Learning,Machine Learning,یادگیری ماشین , یادگیری ماشین , |
| توضیحات | Submitted 29 July, 2024; originally announced July 2024. |
| توضیحات به فارسی | ارسال 29 ژوئیه 2024 ؛در ابتدا ژوئیه 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 1,080,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Neural networks trained to solve modular arithmetic tasks exhibit grokking, a phenomenon where the test accuracy starts improving long after the model achieves 100% training accuracy in the training process. It is often taken as an example of “emergence”, where model ability manifests sharply through a phase transition. In this work, we show that the phenomenon of grokking is not specific to neural networks nor to gradient descent-based optimization. Specifically, we show that this phenomenon occurs when learning modular arithmetic with Recursive Feature Machines (RFM), an iterative algorithm that uses the Average Gradient Outer Product (AGOP) to enable task-specific feature learning with general machine learning models. When used in conjunction with kernel machines, iterating RFM results in a fast transition from random, near zero, test accuracy to perfect test accuracy. This transition cannot be predicted from the training loss, which is identically zero, nor from the test loss, which remains constant in initial iterations. Instead, as we show, the transition is completely determined by feature learning: RFM gradually learns block-circulant features to solve modular arithmetic. Paralleling the results for RFM, we show that neural networks that solve modular arithmetic also learn block-circulant features. Furthermore, we present theoretical evidence that RFM uses such block-circulant features to implement the Fourier Multiplication Algorithm, which prior work posited as the generalizing solution neural networks learn on these tasks. Our results demonstrate that emergence can result purely from learning task-relevant features and is not specific to neural architectures nor gradient descent-based optimization methods. Furthermore, our work provides more evidence for AGOP as a key mechanism for feature learning in neural networks.
چکیده به فارسی (ترجمه ماشینی)
شبکه های عصبی که برای حل کارهای حسابی مدولار آموزش دیده اند ، Grokking را نشان می دهند ، پدیده ای که در آن دقت آزمون پس از دستیابی به مدل 100 ٪ آموزش در فرایند آموزش ، بهبودی را انجام می دهد.این اغلب به عنوان نمونه ای از “ظهور” گرفته می شود ، جایی که توانایی مدل از طریق انتقال فاز به شدت تجلی می یابد.در این کار ، ما نشان می دهیم که پدیده Grokking مختص شبکه های عصبی و بهینه سازی مبتنی بر تبار شیب نیست.به طور خاص ، ما نشان می دهیم که این پدیده هنگام یادگیری حسابی مدولار با ماشین های ویژگی بازگشتی (RFM) ، یک الگوریتم تکراری که از محصول متوسط بیرونی شیب (AGOP) استفاده می کند ، برای فعال کردن یادگیری ویژگی خاص با مدل های یادگیری ماشین عمومی اتفاق می افتد.هنگامی که در رابطه با دستگاه های هسته استفاده می شود ، تکرار RFM منجر به انتقال سریع از دقت آزمایش تصادفی ، نزدیک به صفر ، برای دقت آزمایش کامل می شود.این انتقال را نمی توان از دست دادن آموزش ، که به طور یکسان صفر است و نه از دست دادن آزمون ، که در تکرارهای اولیه ثابت است ، پیش بینی کرد.درعوض ، همانطور که نشان می دهیم ، انتقال کاملاً با یادگیری ویژگی مشخص می شود: RFM به تدریج ویژگی های مدار بلوک را برای حل حساب مدولار می آموزد.موازی با نتایج RFM ، ما نشان می دهیم که شبکه های عصبی که حسابی ماژولار را حل می کنند ، ویژگی های گردش بلوک را نیز می آموزند.علاوه بر این ، ما شواهد نظری ارائه می دهیم که RFM از چنین ویژگی های بلوک برای اجرای الگوریتم ضرب فوریه استفاده می کند ، که کار قبلی به عنوان شبکه های عصبی راه حل تعمیم یافته در این کارها مطرح می شود.نتایج ما نشان می دهد که ظهور می تواند صرفاً از یادگیری ویژگی های مرتبط با کار ناشی شود و مختص معماری عصبی و نه روشهای بهینه سازی مبتنی بر نزول شیب نیست.علاوه بر این ، کار ما شواهد بیشتری را برای AGOP به عنوان مکانیسم اصلی یادگیری ویژگی در شبکه های عصبی ارائه می دهد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.