عنوان مقاله به انگلیسی | Evaluating Language Models for Efficient Code Generation | ||||||||
عنوان مقاله به فارسی | ترجمه فارسی مقاله ارزیابی مدل های زبان برای تولید کد کارآمد | ||||||||
نویسندگان | Jiawei Liu, Songrun Xie, Junhao Wang, Yuxiang Wei, Yifeng Ding, Lingming Zhang | ||||||||
فرمت مقاله انگلیسی | |||||||||
زبان مقاله تحویلی | ترجمه فارسی | ||||||||
فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
تعداد صفحات | 18 | ||||||||
لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
دسته بندی موضوعات | Software Engineering,Computation and Language,Machine Learning,مهندسی نرم افزار , محاسبات و زبان , یادگیری ماشین , | ||||||||
توضیحات | Submitted 12 August, 2024; originally announced August 2024. | ||||||||
توضیحات به فارسی | ارائه شده 12 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
We introduce Differential Performance Evaluation (DPE), a framework designed to reliably evaluate Large Language Models (LLMs) for efficient code generation. Traditional coding benchmarks often fail to provide reliable insights into code efficiency, due to their reliance on simplistic test inputs and the absence of effective compound metrics. DPE addresses these issues by focusing on efficiency-demanding programming tasks and establishing an insightful compound metric for performance evaluation. DPE operates in two phases: To curate efficiency datasets, it selects efficiency-demanding tasks from existing coding benchmarks and generates computationally expensive inputs to stress the efficiency of LLM solutions. To assess the code efficiency, DPE profiles the new solution and compares it globally against a set of reference solutions that exhibit distinct efficiency levels, where the matched level defines its efficiency score. As a proof of concept, we use DPE to create EvalPerf, a benchmark with 121 performance-challenging coding tasks. Our comprehensive evaluation draws interesting findings on the efficiency impact of model sizes, instruction tuning, and prompting. For example, while the scaling law fails to account for code efficiency, general instruction tuning benefits both code correctness and efficiency. We also evaluate the evaluation by examining the effectiveness of DPE, showing that EvalPerf is reliable and convenient to use even across platforms.
چکیده به فارسی (ترجمه ماشینی)
ما ارزیابی عملکرد دیفرانسیل (DPE) را معرفی می کنیم ، چارچوبی که برای ارزیابی قابل اطمینان مدل های بزرگ زبان (LLM) برای تولید کد کارآمد طراحی شده است.معیارهای برنامه نویسی سنتی اغلب به دلیل اتکا به ورودی های تست ساده و عدم وجود معیارهای ترکیبی مؤثر ، در ارائه بینش قابل اعتماد در مورد کارایی کد ناکام هستند.DPE با تمرکز بر وظایف برنامه نویسی با تقاضای کارآیی و ایجاد یک متریک ترکیبی روشنگری برای ارزیابی عملکرد ، به این موضوعات می پردازد.DPE در دو مرحله کار می کند: برای تنظیم مجموعه داده های کارآیی ، وظایف کارآیی تقاضا را از معیارهای کدگذاری موجود انتخاب می کند و ورودی های محاسباتی گران قیمت را برای تأکید بر کارآیی راه حل های LLM ایجاد می کند.برای ارزیابی راندمان کد ، DPE راه حل جدید را پروفایل می کند و آن را در سطح جهانی در برابر مجموعه ای از راه حل های مرجع که سطح بازده متمایز را نشان می دهند ، مقایسه می کند ، جایی که سطح همسان نمره کارایی آن را مشخص می کند.به عنوان اثبات مفهوم ، ما از DPE برای ایجاد Evalperf ، معیار با 121 کار برنامه نویسی با انتخاب عملکرد استفاده می کنیم.ارزیابی جامع ما یافته های جالبی را در مورد تأثیر کارایی اندازه مدل ، تنظیم دستورالعمل و فرکانس به دست می آورد.به عنوان مثال ، در حالی که قانون مقیاس گذاری نتوانسته است راندمان کد را به خود اختصاص دهد ، تنظیم دستورالعمل عمومی هم از صحت کد و هم بهره وری دارد.ما همچنین ارزیابی را با بررسی اثربخشی DPE ارزیابی می کنیم ، نشان می دهیم که EvalPerf قابل اعتماد و راحت است که حتی در سکوهای موجود نیز استفاده می شود.
فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
نقد و بررسیها
هنوز بررسیای ثبت نشده است.