ترجمه فارسی مقاله میانگین میدان Ansatz برای انتقال وزن صفر

1,520,000 تومان

عنوان مقاله به انگلیسی A Mean Field Ansatz for Zero-Shot Weight Transfer
عنوان مقاله به فارسی ترجمه فارسی مقاله میانگین میدان Ansatz برای انتقال وزن صفر
نویسندگان Xingyuan Chen, Wenwei Kuang, Lei Deng, Wei Han, Bo Bai, Goncalo dos Reis
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 38
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Numerical Analysis,Probability,یادگیری ماشین , تجزیه و تحلیل عددی , احتمال ,
توضیحات Submitted 16 August, 2024; originally announced August 2024. , Comments: 40 pages, 6 Figures, 1 table
توضیحات به فارسی ارائه شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 40 صفحه ، 6 شکل ، 1 جدول
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

The pre-training cost of large language models (LLMs) is prohibitive. One cutting-edge approach to reduce the cost is zero-shot weight transfer, also known as model growth for some cases, which magically transfers the weights trained in a small model to a large model. However, there are still some theoretical mysteries behind the weight transfer. In this paper, inspired by prior applications of mean field theory to neural network dynamics, we introduce a mean field ansatz to provide a theoretical explanation for weight transfer. Specifically, we propose the row-column (RC) ansatz under the mean field point of view, which describes the measure structure of the weights in the neural network (NN) and admits a close measure dynamic. Thus, the weights of different sizes NN admit a common distribution under proper assumptions, and weight transfer methods can be viewed as sampling methods. We empirically validate the RC ansatz by exploring simple MLP examples and LLMs such as GPT-3 and Llama-3.1. We show the mean-field point of view is adequate under suitable assumptions which can provide theoretical support for zero-shot weight transfer.

چکیده به فارسی (ترجمه ماشینی)

هزینه قبل از آموزش مدلهای بزرگ زبان (LLMS) ممنوع است.یک روش برش برای کاهش هزینه ، انتقال وزن صفر است ، همچنین برای برخی موارد به عنوان رشد مدل شناخته می شود ، که به طرز جادویی وزنهای آموزش داده شده در یک مدل کوچک را به یک مدل بزرگ منتقل می کند.با این حال ، هنوز هم برخی از اسرار نظری در پشت انتقال وزن وجود دارد.در این مقاله ، با الهام از برنامه های قبلی تئوری میانگین میدان به دینامیک شبکه عصبی ، ما یک میدان میانگین ANSATZ را معرفی می کنیم تا توضیحی نظری برای انتقال وزن ارائه دهد.به طور خاص ، ما ستون ردیف (RC) ANSATZ را در زیر نقطه میانگین میدان پیشنهاد می کنیم ، که ساختار اندازه گیری وزنهای موجود در شبکه عصبی (NN) را توصیف می کند و یک اندازه گیری نزدیک پویا را می پذیرد.بنابراین ، وزن اندازه های مختلف NN توزیع مشترک را تحت فرضیات مناسب می پذیرد و می توان روشهای انتقال وزن را به عنوان روش نمونه برداری مشاهده کرد.ما با بررسی نمونه های ساده MLP و LLM هایی مانند GPT-3 و LLAMA-3.1 ، RC ANSATZ را تأیید می کنیم.ما نشان می دهیم که دیدگاه میانگین با فرضیات مناسب کافی است که می تواند پشتیبانی نظری برای انتقال وزن صفر را فراهم کند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله میانگین میدان Ansatz برای انتقال وزن صفر”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا