ترجمه فارسی مقاله رونمایی از هدهای القایی: دینامیک آموزش قابل اثبات و یادگیری ویژگی در ترانسفورماتورها

2,000,000 تومان

عنوان مقاله به انگلیسی Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers
عنوان مقاله به فارسی ترجمه فارسی مقاله رونمایی از هدهای القایی: دینامیک آموزش قابل اثبات و یادگیری ویژگی در ترانسفورماتورها
نویسندگان Siyu Chen, Heejune Sheen, Tianhao Wang, Zhuoran Yang
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 100
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Artificial Intelligence,Computation and Language,Optimization and Control,Machine Learning,یادگیری ماشین , هوش مصنوعی , محاسبه و زبان , بهینه سازی و کنترل , یادگیری ماشین
توضیحات Submitted 9 September, 2024; originally announced September 2024. , Comments: 100 pages, 10 figures
توضیحات به فارسی ارسال شده در 9 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد ، نظرات: 100 صفحه ، 10 شکل
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

In-context learning (ICL) is a cornerstone of large language model (LLM) functionality, yet its theoretical foundations remain elusive due to the complexity of transformer architectures. In particular, most existing work only theoretically explains how the attention mechanism facilitates ICL under certain data models. It remains unclear how the other building blocks of the transformer contribute to ICL. To address this question, we study how a two-attention-layer transformer is trained to perform ICL on $n$-gram Markov chain data, where each token in the Markov chain statistically depends on the previous $n$ tokens. We analyze a sophisticated transformer model featuring relative positional embedding, multi-head softmax attention, and a feed-forward layer with normalization. We prove that the gradient flow with respect to a cross-entropy ICL loss converges to a limiting model that performs a generalized version of the induction head mechanism with a learned feature, resulting from the congruous contribution of all the building blocks. In the limiting model, the first attention layer acts as a $\mathit{copier}$, copying past tokens within a given window to each position, and the feed-forward network with normalization acts as a $\mathit{selector}$ that generates a feature vector by only looking at informationally relevant parents from the window. Finally, the second attention layer is a $\mathit{classifier}$ that compares these features with the feature at the output position, and uses the resulting similarity scores to generate the desired output. Our theory is further validated by experiments.

چکیده به فارسی (ترجمه ماشینی)

یادگیری درون متن (ICL) سنگ بنای عملکرد مدل بزرگ زبان (LLM) است ، اما مبانی نظری آن به دلیل پیچیدگی معماری ترانسفورماتور گریزان است.به طور خاص ، بیشتر کارهای موجود فقط از لحاظ نظری توضیح می دهد که چگونه مکانیسم توجه ICL را تحت مدل های خاص داده تسهیل می کند.هنوز مشخص نیست که چگونه بلوک های ساختمان دیگر ترانسفورماتور به ICL کمک می کنند.برای پرداختن به این سؤال ، ما مطالعه می کنیم که چگونه یک ترانسفورماتور دو طرفه برای انجام ICL در داده های زنجیره ای مارکوف $ n $-که در آن هر نشانه در زنجیره مارکوف از نظر آماری بستگی به نشانه های قبلی $ $ دارد ، آموزش داده است.ما یک مدل ترانسفورماتور پیشرفته را که شامل تعبیه نسبی موقعیتی ، توجه Softmax چند سر و یک لایه خوراک به سمت عادی با عادی سازی است ، تجزیه و تحلیل می کنیم.ما ثابت می کنیم که جریان شیب با توجه به یک ضرر ICL متقابل آنتروپی به یک مدل محدود کننده که یک نسخه کلی از مکانیسم سر القایی را با یک ویژگی آموخته انجام می دهد ، ناشی از سهم متناقض تمام بلوک های ساختمان است.در مدل محدود کننده ، اولین لایه توجه به عنوان یک $ \ Mathit {copier} $ عمل می کند ، کپی کردن نشانه های گذشته در یک پنجره معین به هر موقعیت ، و شبکه تغذیه رو به جلو با عادی سازی به عنوان یک $ \ Mathit {انتخاب کننده} $ عمل می کند.فقط با نگاه کردن به والدین مرتبط با اطلاع رسانی از پنجره ، یک وکتور ویژگی ایجاد می کند.سرانجام ، لایه توجه دوم یک طبقه بندی $ \ Mathit}} $ است که این ویژگی ها را با ویژگی در موقعیت خروجی مقایسه می کند و از نمرات شباهت حاصل برای تولید خروجی مورد نظر استفاده می کند.نظریه ما با آزمایشات بیشتر تأیید می شود.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله رونمایی از هدهای القایی: دینامیک آموزش قابل اثبات و یادگیری ویژگی در ترانسفورماتورها”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا