| عنوان مقاله به انگلیسی | Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله ساخت مجموعه های ارزیابی خاص دامنه برای LLM-AS-A-Judge | ||||||||
| نویسندگان | Ravi Raju, Swayambhoo Jain, Bo Li, Jonathan Li, Urmish Thakker | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 14 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی , | ||||||||
| توضیحات | Submitted 19 August, 2024; v1 submitted 16 August, 2024; originally announced August 2024. , Comments: 14 pages, 8 figures, Under review | ||||||||
| توضیحات به فارسی | ارسال شده در 19 اوت 2024 ؛V1 ارسال شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: 14 صفحه ، 8 شکل ، در حال بررسی | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Large Language Models (LLMs) have revolutionized the landscape of machine learning, yet current benchmarks often fall short in capturing the diverse behavior of these models in real-world applications. A benchmark’s usefulness is determined by its ability to clearly differentiate between models of varying capabilities (separability) and closely align with human preferences. Existing frameworks like Alpaca-Eval 2.0 LC \cite{dubois2024lengthcontrolledalpacaevalsimpleway} and Arena-Hard v0.1 \cite{li2024crowdsourced} are limited by their focus on general-purpose queries and lack of diversity across domains such as law, medicine, and multilingual contexts. In this paper, we address these limitations by introducing a novel data pipeline that curates diverse, domain-specific evaluation sets tailored for LLM-as-a-Judge frameworks. Our approach leverages a combination of manual curation, semi-supervised learning to generate clusters, and stratified sampling to ensure balanced representation across a wide range of domains and languages. The resulting evaluation set, which includes 1573 samples across 14 categories, demonstrates high separability (84\%) across ten top-ranked models, and agreement (84\%) with Chatbot Arena and (0.915) Spearman correlation. The agreement values are 9\% better than Arena Hard and 20\% better than AlpacaEval 2.0 LC, while the Spearman coefficient is 0.7 more than the next best benchmark, showcasing a significant improvement in the usefulness of the benchmark. We further provide an open-source evaluation tool that enables fine-grained analysis of model performance across user-defined categories, offering valuable insights for practitioners. This work contributes to the ongoing effort to enhance the transparency, diversity, and effectiveness of LLM evaluation methodologies.
چکیده به فارسی (ترجمه ماشینی)
مدل های بزرگ زبان (LLM) چشم انداز یادگیری ماشین را متحول کرده اند ، اما معیارهای فعلی اغلب در گرفتن رفتار متنوع این مدل ها در کاربردهای دنیای واقعی کوتاه می آیند.سودمندی یک معیار با توانایی آن در تمایز به روشنی بین مدل های قابلیت های مختلف (جدایی) و از نزدیک با ترجیحات انسانی مشخص می شود.چارچوب های موجود مانند Alpaca-Eval 2.0 LC \ Cite {Dubois2024llengthcontrolledalpacaevalsimpleway} و Arena-hard v0.1 \ cite {li2024crowdsourced} با تمرکز خود بر روی پرس و جوهای عمومی و کمبود و عدم وجود تنوع در زمینه های مختلف ، در زمینه های مختلف ، زمینه و رویه هابشردر این مقاله ، ما با معرفی یک خط لوله داده جدید که شامل مجموعه های ارزیابی متنوع و خاص دامنه متناسب با چارچوب های LLM-AS-A-Judge است ، به این محدودیت ها می پردازیم.رویکرد ما ترکیبی از درمان دستی ، یادگیری نیمه تحت نظارت برای تولید خوشه ها و نمونه گیری طبقه بندی شده برای اطمینان از بازنمایی متعادل در طیف گسترده ای از حوزه ها و زبانها است.مجموعه ارزیابی حاصل ، که شامل 1573 نمونه در 14 دسته است ، جدایی بالایی (84 \ ٪) را در ده مدل رده برتر نشان می دهد ، و توافق (84 \ ٪) با chatbot arena و (0.915) همبستگی Spearman.مقادیر توافق 9 \ ٪ بهتر از عرصه سخت و 20 \ ٪ بهتر از Alpacaeval 2.0 LC است ، در حالی که ضریب Spearman 0.7 بیشتر از بهترین معیار بعدی است و نشان دهنده پیشرفت قابل توجهی در سودمندی معیار است.ما همچنین یک ابزار ارزیابی منبع باز ارائه می دهیم که تجزیه و تحلیل ریز و درشت عملکرد مدل را در دسته های تعریف شده توسط کاربر امکان پذیر می کند و بینش ارزشمندی را برای پزشکان ارائه می دهد.این کار به تلاش مداوم برای تقویت شفافیت ، تنوع و اثربخشی روشهای ارزیابی LLM کمک می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.