| عنوان مقاله به انگلیسی | Kolmogorov-Arnold Transformer | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله ترانسفورماتور کلموگروف-آرنولد | ||||||||
| نویسندگان | Xingyi Yang, Xinchao Wang | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 19 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,Computer Vision and Pattern Recognition,Neural and Evolutionary Computing,یادگیری ماشین , هوش مصنوعی , چشم انداز رایانه و تشخیص الگوی , محاسبات عصبی و تکاملی , | ||||||||
| توضیحات | Submitted 16 September, 2024; originally announced September 2024. , Comments: Code: https://github.com/Adamdad/kat | ||||||||
| توضیحات به فارسی | ارائه شده 16 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. ، نظرات: کد: https://github.com/adamdad/kat | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Transformers stand as the cornerstone of mordern deep learning. Traditionally, these models rely on multi-layer perceptron (MLP) layers to mix the information between channels. In this paper, we introduce the Kolmogorov-Arnold Transformer (KAT), a novel architecture that replaces MLP layers with Kolmogorov-Arnold Network (KAN) layers to enhance the expressiveness and performance of the model. Integrating KANs into transformers, however, is no easy feat, especially when scaled up. Specifically, we identify three key challenges: (C1) Base function. The standard B-spline function used in KANs is not optimized for parallel computing on modern hardware, resulting in slower inference speeds. (C2) Parameter and Computation Inefficiency. KAN requires a unique function for each input-output pair, making the computation extremely large. (C3) Weight initialization. The initialization of weights in KANs is particularly challenging due to their learnable activation functions, which are critical for achieving convergence in deep neural networks. To overcome the aforementioned challenges, we propose three key solutions: (S1) Rational basis. We replace B-spline functions with rational functions to improve compatibility with modern GPUs. By implementing this in CUDA, we achieve faster computations. (S2) Group KAN. We share the activation weights through a group of neurons, to reduce the computational load without sacrificing performance. (S3) Variance-preserving initialization. We carefully initialize the activation weights to make sure that the activation variance is maintained across layers. With these designs, KAT scales effectively and readily outperforms traditional MLP-based transformers.
چکیده به فارسی (ترجمه ماشینی)
ترانسفورماتورها به عنوان سنگ بنای یادگیری عمیق Mordern ایستاده اند.به طور سنتی ، این مدل ها برای مخلوط کردن اطلاعات بین کانال ها به لایه های چند لایه Perceptron (MLP) متکی هستند.در این مقاله ، ما ترانسفورماتور Kolmogorov-Arnold (KAT) را معرفی می کنیم ، یک معماری جدید که جایگزین لایه های MLP با لایه های شبکه Kolmogorov-Arnold (KAN) برای تقویت بیان و عملکرد مدل می شود.با این حال ، ادغام KANS در ترانسفورماتورها ، به ویژه هنگامی که مقیاس بندی می شود ، کار ساده ای نیست.به طور خاص ، ما سه چالش اصلی را شناسایی می کنیم: (C1) عملکرد پایه.عملکرد استاندارد B-spline مورد استفاده در KANS برای محاسبات موازی بر روی سخت افزار مدرن بهینه نشده و در نتیجه سرعت استنباط کندتر است.(C2) پارامتر و ناکارآمدی محاسبات.Kan برای هر جفت ورودی و خروجی به یک عملکرد منحصر به فرد نیاز دارد و این محاسبه را بسیار بزرگ می کند.(C3) اولیه سازی وزن.اولیه سازی وزنه ها در KANS به دلیل عملکردهای فعال سازی قابل یادگیری ، که برای دستیابی به همگرایی در شبکه های عصبی عمیق بسیار مهم است ، به ویژه چالش برانگیز است.برای غلبه بر چالش های فوق ، ما سه راه حل اصلی را پیشنهاد می کنیم: (S1) مبنای عقلانی.ما توابع B-spline را با توابع منطقی جایگزین می کنیم تا سازگاری با GPU های مدرن را بهبود بخشیم.با اجرای این کار در CUDA ، به محاسبات سریعتر می رسیم.(S2) گروه Kan.ما وزن فعال سازی را از طریق گروهی از نورون ها به اشتراک می گذاریم تا بار محاسباتی را بدون قربانی کردن عملکرد کاهش دهیم.(S3) اولیه سازی واریانس.ما با دقت وزنهای فعال سازی را با دقت تنظیم می کنیم تا اطمینان حاصل کنیم که واریانس فعال سازی در لایه ها حفظ می شود.با این طرح ها ، مقیاس های KAT به طور مؤثر و به راحتی از ترانسفورماتورهای سنتی مبتنی بر MLP استفاده می کنند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.