| عنوان مقاله به انگلیسی | Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله گزارش فنی Qwen2.5-Math: به سمت مدل متخصص ریاضی از طریق خود-بهبودی | ||||||||
| نویسندگان | An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jianhong Tu, Jingren Zhou, Junyang Lin, Keming Lu, Mingfeng Xue, Runji Lin, Tianyu Liu, Xingzhang Ren, Zhenru Zhang | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 39 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Computation and Language,Artificial Intelligence,Machine Learning,محاسبه و زبان , هوش مصنوعی , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 18 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارائه شده در 18 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
In this report, we present a series of math-specific large language models: Qwen2.5-Math and Qwen2.5-Math-Instruct-1.5B/7B/72B. The core innovation of the Qwen2.5 series lies in integrating the philosophy of self-improvement throughout the entire pipeline, from pre-training and post-training to inference: (1) During the pre-training phase, Qwen2-Math-Instruct is utilized to generate large-scale, high-quality mathematical data. (2) In the post-training phase, we develop a reward model (RM) by conducting massive sampling from Qwen2-Math-Instruct. This RM is then applied to the iterative evolution of data in supervised fine-tuning (SFT). With a stronger SFT model, it’s possible to iteratively train and update the RM, which in turn guides the next round of SFT data iteration. On the final SFT model, we employ the ultimate RM for reinforcement learning, resulting in the Qwen2.5-Math-Instruct. (3) Furthermore, during the inference stage, the RM is used to guide sampling, optimizing the model’s performance. Qwen2.5-Math-Instruct supports both Chinese and English, and possess advanced mathematical reasoning capabilities, including Chain-of-Thought (CoT) and Tool-Integrated Reasoning (TIR). We evaluate our models on 10 mathematics datasets in both English and Chinese, such as GSM8K, MATH, GaoKao, AMC23, and AIME24, covering a range of difficulties from grade school level to math competition problems.
چکیده به فارسی (ترجمه ماشینی)
در این گزارش ، ما مجموعه ای از مدل های بزرگ زبان ریاضی را ارائه می دهیم: QWEN2.5-MATH و QWEN2.5-MATH-Instruct-1.5b/7b/72b.نوآوری اصلی سری QWEN2.5 در ادغام فلسفه خود بهبود در کل خط لوله ، از قبل از آموزش و بعد از آموزش تا استنباط نهفته است: (1) در مرحله قبل از دوره ، qwen2-math-ath استبرای تولید داده های ریاضی در مقیاس بزرگ و با کیفیت بالا استفاده می شود.(2) در مرحله پس از آموزش ، ما با انجام نمونه گیری گسترده از qwen2-math-ath ، یک مدل پاداش (RM) تهیه می کنیم.این RM سپس برای تکامل تکراری داده ها در تنظیم دقیق نظارت شده (SFT) اعمال می شود.با داشتن یک مدل SFT قوی تر ، امکان آموزش تکراری و به روزرسانی RM وجود دارد که به نوبه خود دور بعدی تکرار داده های SFT را راهنمایی می کند.در مدل SFT نهایی ، ما از RM نهایی برای یادگیری تقویت استفاده می کنیم ، و در نتیجه دوره QWEN2.5-MATH ایجاد می شود.(3) علاوه بر این ، در مرحله استنتاج ، از RM برای هدایت نمونه برداری ، بهینه سازی عملکرد مدل استفاده می شود.QWEN2.5-MATH-MATH از هر دو چینی و انگلیسی پشتیبانی می کند و دارای قابلیت های استدلال ریاضی پیشرفته ، از جمله زنجیره ای از فکر (COT) و استدلال یکپارچه ابزار (TIR) است.ما مدل های خود را در 10 مجموعه داده ریاضیات به دو زبان انگلیسی و چینی ، مانند GSM8K ، Math ، Gaokao ، AMC23 و AIME24 ارزیابی می کنیم و طیف وسیعی از مشکلات را از سطح مدرسه کلاس تا مشکلات رقابت ریاضی پوشش می دهد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.