| عنوان مقاله به انگلیسی | Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله مقیاسبندی بهینه محاسبات زمان آزمون LLM میتواند مؤثرتر از مقیاسبندی پارامترهای مدل باشد |
| نویسندگان | Charlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 37 |
| دسته بندی موضوعات | Machine Learning,Computation and Language,یادگیری ماشین , محاسبه و زبان , |
| توضیحات | Submitted 6 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارائه شده در 6 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 1,480,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Enabling LLMs to improve their outputs by using more test-time computation is a critical step towards building generally self-improving agents that can operate on open-ended natural language. In this paper, we study the scaling of inference-time computation in LLMs, with a focus on answering the question: if an LLM is allowed to use a fixed but non-trivial amount of inference-time compute, how much can it improve its performance on a challenging prompt? Answering this question has implications not only on the achievable performance of LLMs, but also on the future of LLM pretraining and how one should tradeoff inference-time and pre-training compute. Despite its importance, little research attempted to understand the scaling behaviors of various test-time inference methods. Moreover, current work largely provides negative results for a number of these strategies. In this work, we analyze two primary mechanisms to scale test-time computation: (1) searching against dense, process-based verifier reward models; and (2) updating the model’s distribution over a response adaptively, given the prompt at test time. We find that in both cases, the effectiveness of different approaches to scaling test-time compute critically varies depending on the difficulty of the prompt. This observation motivates applying a “compute-optimal” scaling strategy, which acts to most effectively allocate test-time compute adaptively per prompt. Using this compute-optimal strategy, we can improve the efficiency of test-time compute scaling by more than 4x compared to a best-of-N baseline. Additionally, in a FLOPs-matched evaluation, we find that on problems where a smaller base model attains somewhat non-trivial success rates, test-time compute can be used to outperform a 14x larger model.
چکیده به فارسی (ترجمه ماشینی)
فعال کردن LLM ها برای بهبود خروجی های خود با استفاده از محاسبات بیشتر در زمان آزمایش ، گامی مهم در جهت ساختن عوامل پیشرفته خود است که می توانند بر روی زبان طبیعی باز عمل کنند.در این مقاله ، ما مقیاس بندی محاسبات زمان استنباط در LLMS را با تمرکز بر پاسخ به این سؤال بررسی می کنیم: اگر LLM مجاز به استفاده از مقدار ثابت اما غیر واقعی از محاسبات زمان استنتاج باشد ، چقدر می تواند آن را بهبود بخشد.عملکرد در یک سریع چالش برانگیز؟پاسخ به این سؤال نه تنها در عملکرد قابل دستیابی LLM ها ، بلکه در مورد آینده پیشگویی LLM و اینکه چگونه باید استنتاج زمان و محاسبه قبل از آموزش را انجام داد ، پیامدهایی دارد.علیرغم اهمیت آن ، تحقیقات اندکی سعی در درک رفتارهای مقیاس پذیر روشهای مختلف استنباط زمان آزمون داشت.علاوه بر این ، کار فعلی تا حد زیادی نتایج منفی را برای تعدادی از این استراتژی ها فراهم می کند.در این کار ، ما دو مکانیسم اصلی را برای مقیاس محاسبه زمان تجزیه و تحلیل می کنیم: (1) جستجو در برابر مدلهای پاداش تأیید کننده متراکم و مبتنی بر فرآیند.و (2) به روزرسانی توزیع مدل از طریق پاسخ به صورت تطبیقی ، با توجه به سریع در زمان آزمون.ما می دانیم که در هر دو مورد ، اثربخشی رویکردهای مختلف در مقیاس بندی محاسبات زمان تست بسته به دشواری سریع متفاوت است.این مشاهده انگیزه استفاده از یک استراتژی مقیاس گذاری “محاسبات بهینه” را ایجاد می کند ، که به طور مؤثر در هر فوری به طور مؤثر محاسبات را تطبیق می دهد.با استفاده از این استراتژی محاسباتی بهینه ، ما می توانیم کارایی مقیاس محاسبه زمان آزمایش را بیش از 4 برابر در مقایسه با یک پایه بهترین N بهبود بخشیم.علاوه بر این ، در یک ارزیابی مطابق با FLOPS ، ما می دانیم که در مورد مشکلاتی که یک مدل پایه کوچکتر به میزان موفقیت موفقیت آمیز و غیر واقعی می رسد ، می توان از محاسبه زمان آزمایش برای بهتر از یک مدل بزرگتر 14 برابر استفاده کرد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.