ترجمه فارسی مقاله ترانسفورماتور کلموگروف-آرنولد

380,000 تومان

عنوان مقاله به انگلیسی Kolmogorov-Arnold Transformer
عنوان مقاله به فارسی ترجمه فارسی مقاله ترانسفورماتور کلموگروف-آرنولد
نویسندگان Xingyi Yang, Xinchao Wang
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 19
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Artificial Intelligence,Computer Vision and Pattern Recognition,Neural and Evolutionary Computing,یادگیری ماشین , هوش مصنوعی , چشم انداز رایانه و تشخیص الگوی , محاسبات عصبی و تکاملی ,
توضیحات Submitted 16 September, 2024; originally announced September 2024. , Comments: Code: https://github.com/Adamdad/kat
توضیحات به فارسی ارائه شده 16 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. ، نظرات: کد: https://github.com/adamdad/kat
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Transformers stand as the cornerstone of mordern deep learning. Traditionally, these models rely on multi-layer perceptron (MLP) layers to mix the information between channels. In this paper, we introduce the Kolmogorov-Arnold Transformer (KAT), a novel architecture that replaces MLP layers with Kolmogorov-Arnold Network (KAN) layers to enhance the expressiveness and performance of the model. Integrating KANs into transformers, however, is no easy feat, especially when scaled up. Specifically, we identify three key challenges: (C1) Base function. The standard B-spline function used in KANs is not optimized for parallel computing on modern hardware, resulting in slower inference speeds. (C2) Parameter and Computation Inefficiency. KAN requires a unique function for each input-output pair, making the computation extremely large. (C3) Weight initialization. The initialization of weights in KANs is particularly challenging due to their learnable activation functions, which are critical for achieving convergence in deep neural networks. To overcome the aforementioned challenges, we propose three key solutions: (S1) Rational basis. We replace B-spline functions with rational functions to improve compatibility with modern GPUs. By implementing this in CUDA, we achieve faster computations. (S2) Group KAN. We share the activation weights through a group of neurons, to reduce the computational load without sacrificing performance. (S3) Variance-preserving initialization. We carefully initialize the activation weights to make sure that the activation variance is maintained across layers. With these designs, KAT scales effectively and readily outperforms traditional MLP-based transformers.

چکیده به فارسی (ترجمه ماشینی)

ترانسفورماتورها به عنوان سنگ بنای یادگیری عمیق Mordern ایستاده اند.به طور سنتی ، این مدل ها برای مخلوط کردن اطلاعات بین کانال ها به لایه های چند لایه Perceptron (MLP) متکی هستند.در این مقاله ، ما ترانسفورماتور Kolmogorov-Arnold (KAT) را معرفی می کنیم ، یک معماری جدید که جایگزین لایه های MLP با لایه های شبکه Kolmogorov-Arnold (KAN) برای تقویت بیان و عملکرد مدل می شود.با این حال ، ادغام KANS در ترانسفورماتورها ، به ویژه هنگامی که مقیاس بندی می شود ، کار ساده ای نیست.به طور خاص ، ما سه چالش اصلی را شناسایی می کنیم: (C1) عملکرد پایه.عملکرد استاندارد B-spline مورد استفاده در KANS برای محاسبات موازی بر روی سخت افزار مدرن بهینه نشده و در نتیجه سرعت استنباط کندتر است.(C2) پارامتر و ناکارآمدی محاسبات.Kan برای هر جفت ورودی و خروجی به یک عملکرد منحصر به فرد نیاز دارد و این محاسبه را بسیار بزرگ می کند.(C3) اولیه سازی وزن.اولیه سازی وزنه ها در KANS به دلیل عملکردهای فعال سازی قابل یادگیری ، که برای دستیابی به همگرایی در شبکه های عصبی عمیق بسیار مهم است ، به ویژه چالش برانگیز است.برای غلبه بر چالش های فوق ، ما سه راه حل اصلی را پیشنهاد می کنیم: (S1) مبنای عقلانی.ما توابع B-spline را با توابع منطقی جایگزین می کنیم تا سازگاری با GPU های مدرن را بهبود بخشیم.با اجرای این کار در CUDA ، به محاسبات سریعتر می رسیم.(S2) گروه Kan.ما وزن فعال سازی را از طریق گروهی از نورون ها به اشتراک می گذاریم تا بار محاسباتی را بدون قربانی کردن عملکرد کاهش دهیم.(S3) اولیه سازی واریانس.ما با دقت وزنهای فعال سازی را با دقت تنظیم می کنیم تا اطمینان حاصل کنیم که واریانس فعال سازی در لایه ها حفظ می شود.با این طرح ها ، مقیاس های KAT به طور مؤثر و به راحتی از ترانسفورماتورهای سنتی مبتنی بر MLP استفاده می کنند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله ترانسفورماتور کلموگروف-آرنولد”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا