عنوان مقاله به انگلیسی | Common 7B Language Models Already Possess Strong Math Capabilities |
عنوان مقاله به فارسی | مقاله مدل های زبان رایج 7B از قبل دارای قابلیت های ریاضی قوی هستند |
نویسندگان | Chen Li, Weiqi Wang, Jingcheng Hu, Yixuan Wei, Nanning Zheng, Han Hu, Zheng Zhang, Houwen Peng |
زبان مقاله | انگلیسی |
فرمت مقاله: | |
تعداد صفحات | 17 |
دسته بندی موضوعات | Computation and Language,Artificial Intelligence,محاسبه و زبان , هوش مصنوعی , |
توضیحات | Submitted 7 March, 2024; originally announced March 2024. |
توضیحات به فارسی | ارسال 7 مارس 2024 ؛در ابتدا مارس 2024 اعلام شد. |
چکیده
Mathematical capabilities were previously believed to emerge in common language models only at a very large scale or require extensive math-related pre-training. This paper shows that the LLaMA-2 7B model with common pre-training already exhibits strong mathematical abilities, as evidenced by its impressive accuracy of 97.7% and 72.0% on the GSM8K and MATH benchmarks, respectively, when selecting the best response from 256 random generations. The primary issue with the current base model is the difficulty in consistently eliciting its inherent mathematical capabilities. Notably, the accuracy for the first answer drops to 49.5% and 7.9% on the GSM8K and MATH benchmarks, respectively. We find that simply scaling up the SFT data can significantly enhance the reliability of generating correct answers. However, the potential for extensive scaling is constrained by the scarcity of publicly available math questions. To overcome this limitation, we employ synthetic data, which proves to be nearly as effective as real data and shows no clear saturation when scaled up to approximately one million samples. This straightforward approach achieves an accuracy of 82.6% on GSM8K and 40.6% on MATH using LLaMA-2 7B models, surpassing previous models by 14.2% and 20.8%, respectively. We also provide insights into scaling behaviors across different reasoning complexities and error types.
چکیده به فارسی (ترجمه ماشینی)
قبلاً اعتقاد بر این بود که قابلیت های ریاضی فقط در مقیاس های زبان مشترک فقط در مقیاس بسیار بزرگ ظاهر می شود یا نیاز به پیش از رهبری مربوط به ریاضی دارد.این مقاله نشان می دهد که مدل Llama-2 7B با پیش از آموزش مشترک در حال حاضر توانایی های ریاضی قوی را نشان می دهد ، همانطور که با دقت چشمگیر آن 97.7 ٪ و 72.0 ٪ در معیارهای GSM8K و ریاضی ، هنگام انتخاب بهترین پاسخ از 256 تصادفی مشهود است.نسل هامسئله اصلی با مدل پایه فعلی ، دشواری در ایجاد مداوم قابلیت های ریاضی ذاتی آن است.نکته قابل توجه ، دقت برای اولین پاسخ به ترتیب به 49.5 ٪ و 7.9 ٪ در معیارهای GSM8K و ریاضی کاهش می یابد.ما می دانیم که به سادگی مقیاس بندی داده های SFT می تواند قابلیت اطمینان تولید پاسخ های صحیح را به میزان قابل توجهی افزایش دهد.با این حال ، پتانسیل مقیاس بندی گسترده با کمبود سؤالات ریاضی در دسترس عمومی محدود می شود.برای غلبه بر این محدودیت ، ما از داده های مصنوعی استفاده می کنیم ، که ثابت می کند تقریباً به اندازه داده های واقعی مؤثر است و در هنگام اندازه گیری تقریباً یک میلیون نمونه اشباع روشنی را نشان نمی دهد.این رویکرد ساده به دقت 82.6 ٪ در GSM8K و 40.6 ٪ در ریاضی با استفاده از مدل های LLAMA-2 7B دست می یابد و به ترتیب از مدلهای قبلی 14.2 ٪ و 20.8 ٪ پیشی می گیرد.ما همچنین بینش هایی در مورد رفتارهای مقیاس پذیر در پیچیدگی های مختلف استدلال و انواع خطا ارائه می دهیم.
توجه کنید این مقاله به زبان انگلیسی است. |
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|
نقد و بررسیها
هنوز بررسیای ثبت نشده است.