| عنوان مقاله به انگلیسی | SOAP: Improving and Stabilizing Shampoo using Adam | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله SOAP: شامپو بهبود دهنده و تثبیت کننده با استفاده از آدام | ||||||||
| نویسندگان | Nikhil Vyas, Depen Morwani, Rosie Zhao, Itai Shapira, David Brandfonbrener, Lucas Janson, Sham Kakade | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 19 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی , | ||||||||
| توضیحات | Submitted 17 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارسال شده 17 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
There is growing evidence of the effectiveness of Shampoo, a higher-order preconditioning method, over Adam in deep learning optimization tasks. However, Shampoo’s drawbacks include additional hyperparameters and computational overhead when compared to Adam, which only updates running averages of first- and second-moment quantities. This work establishes a formal connection between Shampoo (implemented with the 1/2 power) and Adafactor — a memory-efficient approximation of Adam — showing that Shampoo is equivalent to running Adafactor in the eigenbasis of Shampoo’s preconditioner. This insight leads to the design of a simpler and computationally efficient algorithm: $\textbf{S}$hampo$\textbf{O}$ with $\textbf{A}$dam in the $\textbf{P}$reconditioner’s eigenbasis (SOAP). With regards to improving Shampoo’s computational efficiency, the most straightforward approach would be to simply compute Shampoo’s eigendecomposition less frequently. Unfortunately, as our empirical results show, this leads to performance degradation that worsens with this frequency. SOAP mitigates this degradation by continually updating the running average of the second moment, just as Adam does, but in the current (slowly changing) coordinate basis. Furthermore, since SOAP is equivalent to running Adam in a rotated space, it introduces only one additional hyperparameter (the preconditioning frequency) compared to Adam. We empirically evaluate SOAP on language model pre-training with 360m and 660m sized models. In the large batch regime, SOAP reduces the number of iterations by over 40% and wall clock time by over 35% compared to AdamW, with approximately 20% improvements in both metrics compared to Shampoo. An implementation of SOAP is available at https://github.com/nikhilvyas/SOAP.
چکیده به فارسی (ترجمه ماشینی)
شواهد در حال رشد در مورد اثربخشی شامپو ، یک روش پیش شرط مرتبه بالاتر ، بر روی آدم در کارهای بهینه سازی عمیق یادگیری وجود دارد.با این حال ، اشکالاتی شامپو شامل هیپرامترهای اضافی و سربار محاسباتی در مقایسه با آدم است ، که فقط میانگین میانگین مقادیر لحظه اول و دوم را به روز می کند.این کار یک ارتباط رسمی بین شامپو (با قدرت 1/2) و adafactor ایجاد می کند-تقریب حافظه کارآمد از آدم-نشان می دهد که شامپو معادل اجرای adafactor در قسمت ویژه پیش شرط شامپو است.این بینش منجر به طراحی یک الگوریتم ساده تر و محاسباتی کارآمد می شود: $ \ textbf {s} $ hampo $ \ textbf {o} $ با $ \ textBf {a} $ سد $ \ textbf {p} reconditioner’s eigenbasis (eigenbasis)صابون)با توجه به بهبود بهره وری محاسباتی شامپو ، ساده ترین رویکرد این است که به سادگی محاسبه نمایشی شامپو را کمتر به طور مکرر محاسبه کنید.متأسفانه ، همانطور که نتایج تجربی ما نشان می دهد ، این منجر به تخریب عملکرد می شود که با این فرکانس بدتر می شود.صابون این تخریب را با به روزرسانی مداوم میانگین در حال اجرا لحظه دوم ، دقیقاً همانطور که آدم انجام می دهد ، کاهش می دهد ، اما در مبنای مختصات فعلی (به آرامی در حال تغییر).علاوه بر این ، از آنجا که صابون معادل اجرای ADAM در یک فضای چرخان است ، فقط یک هیپرپارامتر اضافی (فرکانس پیش شرط) را در مقایسه با آدم معرفی می کند.ما به صورت تجربی صابون را در مدل زبان قبل از آموزش با مدل های 360 متر و 660 متر ارزیابی می کنیم.در رژیم دسته ای بزرگ ، صابون تعداد تکرارها را بیش از 40 ٪ و زمان ساعت دیوار بیش از 35 ٪ در مقایسه با ADAMW کاهش می دهد ، با تقریباً 20 ٪ پیشرفت در هر دو معیار در مقایسه با شامپو.اجرای SOAP در https://github.com/nikhilvyas/soap در دسترس است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.