| عنوان مقاله به انگلیسی | Provable In-Context Learning of Linear Systems and Linear Elliptic PDEs with Transformers | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله آموزش درون متنی قابل اثبات سیستم های خطی و PDE های بیضوی خطی با ترانسفورماتور | ||||||||
| نویسندگان | Frank Cole, Yulong Lu, Riley O’Neill, Tianhao Zhang | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 49 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Numerical Analysis,Machine Learning,یادگیری ماشین , تجزیه و تحلیل عددی , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 18 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارائه شده در 18 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Foundation models for natural language processing, powered by the transformer architecture, exhibit remarkable in-context learning (ICL) capabilities, allowing pre-trained models to adapt to downstream tasks using few-shot prompts without updating their weights. Recently, transformer-based foundation models have also emerged as versatile tools for solving scientific problems, particularly in the realm of partial differential equations (PDEs). However, the theoretical foundations of the ICL capabilities in these scientific models remain largely unexplored. This work develops a rigorous error analysis for transformer-based ICL applied to solution operators associated with a family of linear elliptic PDEs. We first demonstrate that a linear transformer, defined by a linear self-attention layer, can provably learn in-context to invert linear systems arising from the spatial discretization of PDEs. This is achieved by deriving theoretical scaling laws for the prediction risk of the proposed linear transformers in terms of spatial discretization size, the number of training tasks, and the lengths of prompts used during training and inference. These scaling laws also enable us to establish quantitative error bounds for learning PDE solutions. Furthermore, we quantify the adaptability of the pre-trained transformer on downstream PDE tasks that experience distribution shifts in both tasks (represented by PDE coefficients) and input covariates (represented by the source term). To analyze task distribution shifts, we introduce a novel concept of task diversity and characterize the transformer’s prediction error in terms of the magnitude of task shift, assuming sufficient diversity in the pre-training tasks. We also establish sufficient conditions to ensure task diversity. Finally, we validate the ICL-capabilities of transformers through extensive numerical experiments.
چکیده به فارسی (ترجمه ماشینی)
مدل های بنیادی برای پردازش زبان طبیعی ، با استفاده از معماری ترانسفورماتور ، قابلیت های قابل توجه یادگیری درون متن (ICL) را به نمایش می گذارند ، و به مدل های از قبل آموزش داده می شود تا بدون به روزرسانی وزنه های خود ، با انجام کارهای پایین دست با استفاده از چند شات ، سازگار شوند.به تازگی ، مدل های پایه و اساس مبتنی بر ترانسفورماتور نیز به عنوان ابزاری همه کاره برای حل مشکلات علمی ، به ویژه در قلمرو معادلات دیفرانسیل جزئی (PDES) ظاهر شده اند.با این حال ، مبانی نظری توانایی های ICL در این مدلهای علمی تا حد زیادی ناشناخته باقی مانده است.این کار یک تجزیه و تحلیل خطای دقیق برای ICL مبتنی بر ترانسفورماتور که برای اپراتورهای راه حل مرتبط با خانواده ای از PDE های بیضوی خطی اعمال می شود ، ایجاد می کند.ما ابتدا نشان می دهیم که یک ترانسفورماتور خطی ، تعریف شده توسط یک لایه خودآزمایی خطی ، می تواند به طور مؤثر در متن به سیستم های خطی معکوس ناشی از گسسته سازی مکانی PDE ها بیاموزد.این امر با استخراج قوانین مقیاس بندی نظری برای خطر پیش بینی ترانسفورماتورهای خطی پیشنهادی از نظر اندازه گسسته سازی مکانی ، تعداد کارهای آموزشی و طول اعلان های مورد استفاده در طول آموزش و استنباط حاصل می شود.این قوانین مقیاس پذیر همچنین ما را قادر می سازد مرزهای خطای کمی برای یادگیری راه حل های PDE ایجاد کنیم.علاوه بر این ، ما سازگاری ترانسفورماتور از پیش آموزش داده شده را در کارهای PDE پایین دست که تغییر توزیع در هر دو کار (نشان داده شده توسط ضرایب PDE) و متغیرهای ورودی (نشان داده شده توسط اصطلاح منبع) را کمیت می کنیم.برای تجزیه و تحلیل تغییرات توزیع کار ، ما یک مفهوم جدید از تنوع کار را معرفی می کنیم و خطای پیش بینی ترانسفورماتور را از نظر میزان تغییر وظیفه توصیف می کنیم ، با فرض تنوع کافی در کارهای قبل از آموزش.ما همچنین شرایط کافی را برای اطمینان از تنوع کار ایجاد می کنیم.سرانجام ، ما از طریق آزمایش های عددی گسترده ، توانایی های ICL ترانسفورماتورها را تأیید می کنیم.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.