| عنوان مقاله به انگلیسی | Training Language Models to Self-Correct via Reinforcement Learning | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله آموزش مدل های زبان برای اصلاح خود از طریق یادگیری تقویت | ||||||||
| نویسندگان | Aviral Kumar, Vincent Zhuang, Rishabh Agarwal, Yi Su, John D Co-Reyes, Avi Singh, Kate Baumli, Shariq Iqbal, Colton Bishop, Rebecca Roelofs, Lei M Zhang, Kay McKinney, Disha Shrivastava, Cosmin Paduraru, George Tucker, Doina Precup, Feryal Behbahani, Aleksandra Faust | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 29 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,یادگیری ماشین , | ||||||||
| توضیحات | Submitted 19 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارسال شده در 19 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Self-correction is a highly desirable capability of large language models (LLMs), yet it has consistently been found to be largely ineffective in modern LLMs. Existing approaches for training self-correction either require multiple models or rely on a more capable model or other forms of supervision. To this end, we develop a multi-turn online reinforcement learning (RL) approach, SCoRe, that significantly improves an LLM’s self-correction ability using entirely self-generated data. To build SCoRe, we first show that variants of supervised fine-tuning (SFT) on offline model-generated correction traces are insufficient for instilling self-correction behavior. In particular, we observe that training via SFT either suffers from a distribution mismatch between the training data and the model’s own responses or implicitly prefers only a certain mode of correction behavior that is often not effective at test time. SCoRe addresses these challenges by training under the model’s own distribution of self-generated correction traces and using appropriate regularization to steer the learning process into learning a self-correction strategy that is effective at test time as opposed to simply fitting high-reward responses for a given prompt. This regularization prescribes running a first phase of RL on a base model to generate a policy initialization that is less susceptible to collapse and then using a reward bonus to amplify self-correction during training. When applied to Gemini 1.0 Pro and 1.5 Flash models, we find that SCoRe achieves state-of-the-art self-correction performance, improving the base models’ self-correction by 15.6% and 9.1% respectively on the MATH and HumanEval benchmarks.
چکیده به فارسی (ترجمه ماشینی)
خود تصحیح یک توانایی بسیار مطلوب از مدل های بزرگ زبان (LLMS) است ، اما به طور مداوم مشخص شده است که در LLM های مدرن تا حد زیادی بی اثر است.رویکردهای موجود برای آموزش خود تصحیح یا به مدل های مختلفی نیاز دارند یا به یک مدل توانمندتر یا سایر اشکال نظارت متکی هستند.برای این منظور ، ما یک رویکرد یادگیری تقویت کننده آنلاین چند چرخش (RL) ، نمره ایجاد می کنیم ، که به طور قابل توجهی توانایی تصحیح یک LLM را با استفاده از داده های کاملاً خود تولید شده بهبود می بخشد.برای ایجاد نمره ، ابتدا نشان می دهیم که انواع تنظیمات تنظیم شده با نظارت (SFT) در آثار تصحیح تولید شده توسط مدل آفلاین برای القای رفتار خود تصحیح کافی نیست.به طور خاص ، ما مشاهده می کنیم که آموزش از طریق SFT یا از عدم تطابق توزیع بین داده های آموزش و پاسخ های خود مدل رنج می برد یا به طور ضمنی فقط یک روش خاص از رفتار تصحیح را ترجیح می دهد که اغلب در زمان آزمون مؤثر نیست.نمره با آموزش تحت توزیع خود مدل از ردپای تصحیح خود تولید شده و استفاده از تنظیم مناسب برای هدایت فرایند یادگیری به یادگیری یک استراتژی خود تصحیح که در زمان آزمون مؤثر است ، بر خلاف صرفاً متناسب با پاسخ های بالا برای یک ، این چالش ها را برطرف می کند.با داده سریعاین تنظیم ، اجرای یک مرحله اول RL را بر روی یک مدل پایه برای تولید اولیه سازی سیاست که کمتر مستعد سقوط و سپس استفاده از پاداش پاداش برای تقویت خود تصحیح در طول آموزش است ، تجویز می کند.هنگامی که در مدل های فلش Gemini 1.0 Pro و 1.5 اعمال می شود ، می یابیم که نمره به عملکرد خود تصحیح پیشرفته می رسد و به ترتیب خود تصحیح مدل های پایه را به ترتیب 15.6 ٪ و 9.1 ٪ به ترتیب در معیارهای ریاضی و humaneval بهبود می بخشد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.