ترجمه فارسی مقاله چگونه ترانسفورماتورها از توجه چند سر در یادگیری درون متنی استفاده می‌کنند؟ مطالعه موردی در مورد رگرسیون خطی پراکنده

Name: ترجمه فارسی مقاله چگونه ترانسفورماتورها از توجه چند سر در یادگیری درون متنی استفاده میکنند؟ مطالعه موردی در مورد رگرسیون خطی پراکنده
SKU: 66471
Availability: InStock

19,000 تومان – 1,440,000 تومان

نوع دانلود

پاک کردن

شناسه محصول: نامعلوم دسته: ترجمه, مقالات

عنوان مقاله به انگلیسی	How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression
عنوان مقاله به فارسی	ترجمه فارسی مقاله چگونه ترانسفورماتورها از توجه چند سر در یادگیری درون متنی استفاده می‌کنند؟ مطالعه موردی در مورد رگرسیون خطی پراکنده
نویسندگان	Xingwu Chen, Lei Zhao, Difan Zou
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	36
دسته بندی موضوعات	Machine Learning,یادگیری ماشین ,
توضیحات	Submitted 8 August, 2024; originally announced August 2024.
توضیحات به فارسی	ارسال شده در 8 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

سفارش ترجمه فارسی مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش می‌دهید.

قیمت: 1,440,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Despite the remarkable success of transformer-based models in various real-world tasks, their underlying mechanisms remain poorly understood. Recent studies have suggested that transformers can implement gradient descent as an in-context learner for linear regression problems and have developed various theoretical analyses accordingly. However, these works mostly focus on the expressive power of transformers by designing specific parameter constructions, lacking a comprehensive understanding of their inherent working mechanisms post-training. In this study, we consider a sparse linear regression problem and investigate how a trained multi-head transformer performs in-context learning. We experimentally discover that the utilization of multi-heads exhibits different patterns across layers: multiple heads are utilized and essential in the first layer, while usually only a single head is sufficient for subsequent layers. We provide a theoretical explanation for this observation: the first layer preprocesses the context data, and the following layers execute simple optimization steps based on the preprocessed context. Moreover, we demonstrate that such a preprocess-then-optimize algorithm can significantly outperform naive gradient descent and ridge regression algorithms. Further experimental results support our explanations. Our findings offer insights into the benefits of multi-head attention and contribute to understanding the more intricate mechanisms hidden within trained transformers.

چکیده به فارسی (ترجمه ماشینی)

علیرغم موفقیت چشمگیر مدل های مبتنی بر ترانسفورماتور در کارهای مختلف در دنیای واقعی ، مکانیسم های اساسی آنها همچنان ضعیف است.مطالعات اخیر نشان داده اند که ترانسفورماتورها می توانند نزول شیب را به عنوان یک یادگیرنده درون متن برای مشکلات رگرسیون خطی پیاده سازی کنند و بر این اساس تجزیه و تحلیل های نظری مختلفی را توسعه داده اند.با این حال ، این آثار بیشتر با طراحی سازه های پارامتر خاص ، بر قدرت بیانگر ترانسفورماتورها متمرکز شده اند و فاقد درک جامع از مکانیسم های ذاتی کار پس از آموزش هستند.در این مطالعه ، ما یک مشکل رگرسیون خطی پراکنده را در نظر می گیریم و بررسی می کنیم که چگونه یک ترانسفورماتور چند سر آموزش دیده یادگیری درون متن را انجام می دهد.ما به طور تجربی متوجه می شویم که استفاده از چند سر از الگوهای مختلف در لایه ها به نمایش می گذارد: از چندین سر در لایه اول استفاده می شود و ضروری است ، در حالی که معمولاً فقط یک سر واحد برای لایه های بعدی کافی است.ما یک توضیح نظری برای این مشاهدات ارائه می دهیم: لایه اول داده های زمینه را از پیش پردازش می کند ، و لایه های زیر مراحل بهینه سازی ساده را بر اساس زمینه از پیش پردازش شده اجرا می کنند.علاوه بر این ، ما نشان می دهیم که چنین الگوریتم پیش پردازش-سپس بهینه سازی می تواند به طور قابل توجهی از نزول شیب ساده و الگوریتم های رگرسیون ریج بهتر عمل کند.نتایج تجربی بیشتر از توضیحات ما پشتیبانی می کند.یافته های ما بینشی از مزایای توجه چند سر ارائه می دهد و به درک مکانیسم های پیچیده تر پنهان در ترانسفورماتورهای آموزش دیده کمک می کند.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نوع دانلود	دانلود مقاله اصل انگلیسی, سفارش ترجمه فارسی مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله چگونه ترانسفورماتورها از توجه چند سر در یادگیری درون متنی استفاده می‌کنند؟ مطالعه موردی در مورد رگرسیون خطی پراکنده”

ترجمه فارسی مقاله چگونه ترانسفورماتورها از توجه چند سر در یادگیری درون متنی استفاده می‌کنند؟ مطالعه موردی در مورد رگرسیون خطی پراکنده

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

سفارش ترجمه فارسی مقاله

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

ترجمه فارسی مقاله مامبلار: یک مدل ترتیبی برای یادگیری عمیق جدولی

ترجمه فارسی مقاله خط لوله پردازش مولکولی متن‌باز برای تولید مولکول‌ها

ترجمه فارسی مقاله آیا می توانیم برای تهیه برنامه های افکار طولانی به عوامل LLM اعتماد کنیم؟بیایید به عنوان نمونه Travelplanner را بگیریم

ترجمه فارسی مقاله DUNE: یک رویکرد گروهی مبتنی بر یادگیری عمیق ماشینی UNet++ برای پیش‌بینی ماهانه، فصلی و سالانه آب و هوا