“ترجمه فارسی مقاله تشخیص عمیق مبتنی بر یادگیری رتینوپاتی دیابتی ارجاعی و ادم ماکولا با استفاده از تصویربرداری فوندوس فوق گسترده” به سبد خرید شما اضافه شد. ادامه خرید

مقاله علمی

ترجمه فارسی مقاله آموزش مدل های زبان برای اصلاح خود از طریق یادگیری تقویت

580,000 تومان

دسته: مقاله علمی

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Training Language Models to Self-Correct via Reinforcement Learning
عنوان مقاله به فارسی	ترجمه فارسی مقاله آموزش مدل های زبان برای اصلاح خود از طریق یادگیری تقویت
نویسندگان	Aviral Kumar, Vincent Zhuang, Rishabh Agarwal, Yi Su, John D Co-Reyes, Avi Singh, Kate Baumli, Shariq Iqbal, Colton Bishop, Rebecca Roelofs, Lei M Zhang, Kay McKinney, Disha Shrivastava, Cosmin Paduraru, George Tucker, Doina Precup, Feryal Behbahani, Aleksandra Faust
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	29
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Machine Learning,یادگیری ماشین ,
توضیحات	Submitted 19 September, 2024; originally announced September 2024.
توضیحات به فارسی	ارسال شده در 19 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Self-correction is a highly desirable capability of large language models (LLMs), yet it has consistently been found to be largely ineffective in modern LLMs. Existing approaches for training self-correction either require multiple models or rely on a more capable model or other forms of supervision. To this end, we develop a multi-turn online reinforcement learning (RL) approach, SCoRe, that significantly improves an LLM’s self-correction ability using entirely self-generated data. To build SCoRe, we first show that variants of supervised fine-tuning (SFT) on offline model-generated correction traces are insufficient for instilling self-correction behavior. In particular, we observe that training via SFT either suffers from a distribution mismatch between the training data and the model’s own responses or implicitly prefers only a certain mode of correction behavior that is often not effective at test time. SCoRe addresses these challenges by training under the model’s own distribution of self-generated correction traces and using appropriate regularization to steer the learning process into learning a self-correction strategy that is effective at test time as opposed to simply fitting high-reward responses for a given prompt. This regularization prescribes running a first phase of RL on a base model to generate a policy initialization that is less susceptible to collapse and then using a reward bonus to amplify self-correction during training. When applied to Gemini 1.0 Pro and 1.5 Flash models, we find that SCoRe achieves state-of-the-art self-correction performance, improving the base models’ self-correction by 15.6% and 9.1% respectively on the MATH and HumanEval benchmarks.

چکیده به فارسی (ترجمه ماشینی)

خود تصحیح یک توانایی بسیار مطلوب از مدل های بزرگ زبان (LLMS) است ، اما به طور مداوم مشخص شده است که در LLM های مدرن تا حد زیادی بی اثر است.رویکردهای موجود برای آموزش خود تصحیح یا به مدل های مختلفی نیاز دارند یا به یک مدل توانمندتر یا سایر اشکال نظارت متکی هستند.برای این منظور ، ما یک رویکرد یادگیری تقویت کننده آنلاین چند چرخش (RL) ، نمره ایجاد می کنیم ، که به طور قابل توجهی توانایی تصحیح یک LLM را با استفاده از داده های کاملاً خود تولید شده بهبود می بخشد.برای ایجاد نمره ، ابتدا نشان می دهیم که انواع تنظیمات تنظیم شده با نظارت (SFT) در آثار تصحیح تولید شده توسط مدل آفلاین برای القای رفتار خود تصحیح کافی نیست.به طور خاص ، ما مشاهده می کنیم که آموزش از طریق SFT یا از عدم تطابق توزیع بین داده های آموزش و پاسخ های خود مدل رنج می برد یا به طور ضمنی فقط یک روش خاص از رفتار تصحیح را ترجیح می دهد که اغلب در زمان آزمون مؤثر نیست.نمره با آموزش تحت توزیع خود مدل از ردپای تصحیح خود تولید شده و استفاده از تنظیم مناسب برای هدایت فرایند یادگیری به یادگیری یک استراتژی خود تصحیح که در زمان آزمون مؤثر است ، بر خلاف صرفاً متناسب با پاسخ های بالا برای یک ، این چالش ها را برطرف می کند.با داده سریعاین تنظیم ، اجرای یک مرحله اول RL را بر روی یک مدل پایه برای تولید اولیه سازی سیاست که کمتر مستعد سقوط و سپس استفاده از پاداش پاداش برای تقویت خود تصحیح در طول آموزش است ، تجویز می کند.هنگامی که در مدل های فلش Gemini 1.0 Pro و 1.5 اعمال می شود ، می یابیم که نمره به عملکرد خود تصحیح پیشرفته می رسد و به ترتیب خود تصحیح مدل های پایه را به ترتیب 15.6 ٪ و 9.1 ٪ به ترتیب در معیارهای ریاضی و humaneval بهبود می بخشد.

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله آموزش مدل های زبان برای اصلاح خود از طریق یادگیری تقویت”

ترجمه فارسی مقاله آموزش مدل های زبان برای اصلاح خود از طریق یادگیری تقویت

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله BreastRegNet: یک چارچوب یادگیری عمیق برای ثبت نام فاکسیترون پستان و تصاویر هیستوپاتولوژی

مقاله تشخیص گوشه کارآمد حافظه برای سنسورهای دید پویای مبتنی بر رویداد

مقاله تشخیص گسل سیستم قدرت با محاسبات کوانتومی و تجزیه دروازه کارآمد

مقاله طراحی الگوی سیگنال مرجع شانه برای ارتباطات و سنجش یکپارچه