| عنوان مقاله به انگلیسی | How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله چگونه ترانسفورماتورها از توجه چند سر در یادگیری درون متنی استفاده میکنند؟ مطالعه موردی در مورد رگرسیون خطی پراکنده |
| نویسندگان | Xingwu Chen, Lei Zhao, Difan Zou |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 36 |
| دسته بندی موضوعات | Machine Learning,یادگیری ماشین , |
| توضیحات | Submitted 8 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده در 8 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 1,440,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Despite the remarkable success of transformer-based models in various real-world tasks, their underlying mechanisms remain poorly understood. Recent studies have suggested that transformers can implement gradient descent as an in-context learner for linear regression problems and have developed various theoretical analyses accordingly. However, these works mostly focus on the expressive power of transformers by designing specific parameter constructions, lacking a comprehensive understanding of their inherent working mechanisms post-training. In this study, we consider a sparse linear regression problem and investigate how a trained multi-head transformer performs in-context learning. We experimentally discover that the utilization of multi-heads exhibits different patterns across layers: multiple heads are utilized and essential in the first layer, while usually only a single head is sufficient for subsequent layers. We provide a theoretical explanation for this observation: the first layer preprocesses the context data, and the following layers execute simple optimization steps based on the preprocessed context. Moreover, we demonstrate that such a preprocess-then-optimize algorithm can significantly outperform naive gradient descent and ridge regression algorithms. Further experimental results support our explanations. Our findings offer insights into the benefits of multi-head attention and contribute to understanding the more intricate mechanisms hidden within trained transformers.
چکیده به فارسی (ترجمه ماشینی)
علیرغم موفقیت چشمگیر مدل های مبتنی بر ترانسفورماتور در کارهای مختلف در دنیای واقعی ، مکانیسم های اساسی آنها همچنان ضعیف است.مطالعات اخیر نشان داده اند که ترانسفورماتورها می توانند نزول شیب را به عنوان یک یادگیرنده درون متن برای مشکلات رگرسیون خطی پیاده سازی کنند و بر این اساس تجزیه و تحلیل های نظری مختلفی را توسعه داده اند.با این حال ، این آثار بیشتر با طراحی سازه های پارامتر خاص ، بر قدرت بیانگر ترانسفورماتورها متمرکز شده اند و فاقد درک جامع از مکانیسم های ذاتی کار پس از آموزش هستند.در این مطالعه ، ما یک مشکل رگرسیون خطی پراکنده را در نظر می گیریم و بررسی می کنیم که چگونه یک ترانسفورماتور چند سر آموزش دیده یادگیری درون متن را انجام می دهد.ما به طور تجربی متوجه می شویم که استفاده از چند سر از الگوهای مختلف در لایه ها به نمایش می گذارد: از چندین سر در لایه اول استفاده می شود و ضروری است ، در حالی که معمولاً فقط یک سر واحد برای لایه های بعدی کافی است.ما یک توضیح نظری برای این مشاهدات ارائه می دهیم: لایه اول داده های زمینه را از پیش پردازش می کند ، و لایه های زیر مراحل بهینه سازی ساده را بر اساس زمینه از پیش پردازش شده اجرا می کنند.علاوه بر این ، ما نشان می دهیم که چنین الگوریتم پیش پردازش-سپس بهینه سازی می تواند به طور قابل توجهی از نزول شیب ساده و الگوریتم های رگرسیون ریج بهتر عمل کند.نتایج تجربی بیشتر از توضیحات ما پشتیبانی می کند.یافته های ما بینشی از مزایای توجه چند سر ارائه می دهد و به درک مکانیسم های پیچیده تر پنهان در ترانسفورماتورهای آموزش دیده کمک می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.