ترجمه فارسی مقاله گزارش فنی Qwen2.5-Math: به سمت مدل متخصص ریاضی از طریق خود-بهبودی

780,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement
عنوان مقاله به فارسی	ترجمه فارسی مقاله گزارش فنی Qwen2.5-Math: به سمت مدل متخصص ریاضی از طریق خود-بهبودی
نویسندگان	An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jianhong Tu, Jingren Zhou, Junyang Lin, Keming Lu, Mingfeng Xue, Runji Lin, Tianyu Liu, Xingzhang Ren, Zhenru Zhang
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	39
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Computation and Language,Artificial Intelligence,Machine Learning,محاسبه و زبان , هوش مصنوعی , یادگیری ماشین ,
توضیحات	Submitted 18 September, 2024; originally announced September 2024.
توضیحات به فارسی	ارائه شده در 18 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

In this report, we present a series of math-specific large language models: Qwen2.5-Math and Qwen2.5-Math-Instruct-1.5B/7B/72B. The core innovation of the Qwen2.5 series lies in integrating the philosophy of self-improvement throughout the entire pipeline, from pre-training and post-training to inference: (1) During the pre-training phase, Qwen2-Math-Instruct is utilized to generate large-scale, high-quality mathematical data. (2) In the post-training phase, we develop a reward model (RM) by conducting massive sampling from Qwen2-Math-Instruct. This RM is then applied to the iterative evolution of data in supervised fine-tuning (SFT). With a stronger SFT model, it’s possible to iteratively train and update the RM, which in turn guides the next round of SFT data iteration. On the final SFT model, we employ the ultimate RM for reinforcement learning, resulting in the Qwen2.5-Math-Instruct. (3) Furthermore, during the inference stage, the RM is used to guide sampling, optimizing the model’s performance. Qwen2.5-Math-Instruct supports both Chinese and English, and possess advanced mathematical reasoning capabilities, including Chain-of-Thought (CoT) and Tool-Integrated Reasoning (TIR). We evaluate our models on 10 mathematics datasets in both English and Chinese, such as GSM8K, MATH, GaoKao, AMC23, and AIME24, covering a range of difficulties from grade school level to math competition problems.

چکیده به فارسی (ترجمه ماشینی)

در این گزارش ، ما مجموعه ای از مدل های بزرگ زبان ریاضی را ارائه می دهیم: QWEN2.5-MATH و QWEN2.5-MATH-Instruct-1.5b/7b/72b.نوآوری اصلی سری QWEN2.5 در ادغام فلسفه خود بهبود در کل خط لوله ، از قبل از آموزش و بعد از آموزش تا استنباط نهفته است: (1) در مرحله قبل از دوره ، qwen2-math-ath استبرای تولید داده های ریاضی در مقیاس بزرگ و با کیفیت بالا استفاده می شود.(2) در مرحله پس از آموزش ، ما با انجام نمونه گیری گسترده از qwen2-math-ath ، یک مدل پاداش (RM) تهیه می کنیم.این RM سپس برای تکامل تکراری داده ها در تنظیم دقیق نظارت شده (SFT) اعمال می شود.با داشتن یک مدل SFT قوی تر ، امکان آموزش تکراری و به روزرسانی RM وجود دارد که به نوبه خود دور بعدی تکرار داده های SFT را راهنمایی می کند.در مدل SFT نهایی ، ما از RM نهایی برای یادگیری تقویت استفاده می کنیم ، و در نتیجه دوره QWEN2.5-MATH ایجاد می شود.(3) علاوه بر این ، در مرحله استنتاج ، از RM برای هدایت نمونه برداری ، بهینه سازی عملکرد مدل استفاده می شود.QWEN2.5-MATH-MATH از هر دو چینی و انگلیسی پشتیبانی می کند و دارای قابلیت های استدلال ریاضی پیشرفته ، از جمله زنجیره ای از فکر (COT) و استدلال یکپارچه ابزار (TIR) است.ما مدل های خود را در 10 مجموعه داده ریاضیات به دو زبان انگلیسی و چینی ، مانند GSM8K ، Math ، Gaokao ، AMC23 و AIME24 ارزیابی می کنیم و طیف وسیعی از مشکلات را از سطح مدرسه کلاس تا مشکلات رقابت ریاضی پوشش می دهد.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله گزارش فنی Qwen2.5-Math: به سمت مدل متخصص ریاضی از طریق خود-بهبودی”

ترجمه فارسی مقاله گزارش فنی Qwen2.5-Math: به سمت مدل متخصص ریاضی از طریق خود-بهبودی

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله BreastRegNet: یک چارچوب یادگیری عمیق برای ثبت نام فاکسیترون پستان و تصاویر هیستوپاتولوژی

مقاله تشخیص مبتنی بر نمودار سریع برای اطلاعات رنگ ابر نقطه ای

مقاله تقسیم‌بندی خودکار سه بعدی اولتراسوند چندوجهی جفت انسان با استفاده از استراتژی‌های فیوژن و یادگیری عمیق

مقاله مدل‌سازی عدم قطعیت در تقسیم‌بندی تصویر اولتراسوند برای اندازه‌گیری‌های بیومتریک دقیق جنین