ترجمه فارسی مقاله ساخت مجموعه های ارزیابی خاص دامنه برای LLM-AS-A-Judge

560,000 تومان

عنوان مقاله به انگلیسی Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge
عنوان مقاله به فارسی ترجمه فارسی مقاله ساخت مجموعه های ارزیابی خاص دامنه برای LLM-AS-A-Judge
نویسندگان Ravi Raju, Swayambhoo Jain, Bo Li, Jonathan Li, Urmish Thakker
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 14
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی ,
توضیحات Submitted 19 August, 2024; v1 submitted 16 August, 2024; originally announced August 2024. , Comments: 14 pages, 8 figures, Under review
توضیحات به فارسی ارسال شده در 19 اوت 2024 ؛V1 ارسال شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: 14 صفحه ، 8 شکل ، در حال بررسی
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Large Language Models (LLMs) have revolutionized the landscape of machine learning, yet current benchmarks often fall short in capturing the diverse behavior of these models in real-world applications. A benchmark’s usefulness is determined by its ability to clearly differentiate between models of varying capabilities (separability) and closely align with human preferences. Existing frameworks like Alpaca-Eval 2.0 LC \cite{dubois2024lengthcontrolledalpacaevalsimpleway} and Arena-Hard v0.1 \cite{li2024crowdsourced} are limited by their focus on general-purpose queries and lack of diversity across domains such as law, medicine, and multilingual contexts. In this paper, we address these limitations by introducing a novel data pipeline that curates diverse, domain-specific evaluation sets tailored for LLM-as-a-Judge frameworks. Our approach leverages a combination of manual curation, semi-supervised learning to generate clusters, and stratified sampling to ensure balanced representation across a wide range of domains and languages. The resulting evaluation set, which includes 1573 samples across 14 categories, demonstrates high separability (84\%) across ten top-ranked models, and agreement (84\%) with Chatbot Arena and (0.915) Spearman correlation. The agreement values are 9\% better than Arena Hard and 20\% better than AlpacaEval 2.0 LC, while the Spearman coefficient is 0.7 more than the next best benchmark, showcasing a significant improvement in the usefulness of the benchmark. We further provide an open-source evaluation tool that enables fine-grained analysis of model performance across user-defined categories, offering valuable insights for practitioners. This work contributes to the ongoing effort to enhance the transparency, diversity, and effectiveness of LLM evaluation methodologies.

چکیده به فارسی (ترجمه ماشینی)

مدل های بزرگ زبان (LLM) چشم انداز یادگیری ماشین را متحول کرده اند ، اما معیارهای فعلی اغلب در گرفتن رفتار متنوع این مدل ها در کاربردهای دنیای واقعی کوتاه می آیند.سودمندی یک معیار با توانایی آن در تمایز به روشنی بین مدل های قابلیت های مختلف (جدایی) و از نزدیک با ترجیحات انسانی مشخص می شود.چارچوب های موجود مانند Alpaca-Eval 2.0 LC \ Cite {Dubois2024llengthcontrolledalpacaevalsimpleway} و Arena-hard v0.1 \ cite {li2024crowdsourced} با تمرکز خود بر روی پرس و جوهای عمومی و کمبود و عدم وجود تنوع در زمینه های مختلف ، در زمینه های مختلف ، زمینه و رویه هابشردر این مقاله ، ما با معرفی یک خط لوله داده جدید که شامل مجموعه های ارزیابی متنوع و خاص دامنه متناسب با چارچوب های LLM-AS-A-Judge است ، به این محدودیت ها می پردازیم.رویکرد ما ترکیبی از درمان دستی ، یادگیری نیمه تحت نظارت برای تولید خوشه ها و نمونه گیری طبقه بندی شده برای اطمینان از بازنمایی متعادل در طیف گسترده ای از حوزه ها و زبانها است.مجموعه ارزیابی حاصل ، که شامل 1573 نمونه در 14 دسته است ، جدایی بالایی (84 \ ٪) را در ده مدل رده برتر نشان می دهد ، و توافق (84 \ ٪) با chatbot arena و (0.915) همبستگی Spearman.مقادیر توافق 9 \ ٪ بهتر از عرصه سخت و 20 \ ٪ بهتر از Alpacaeval 2.0 LC است ، در حالی که ضریب Spearman 0.7 بیشتر از بهترین معیار بعدی است و نشان دهنده پیشرفت قابل توجهی در سودمندی معیار است.ما همچنین یک ابزار ارزیابی منبع باز ارائه می دهیم که تجزیه و تحلیل ریز و درشت عملکرد مدل را در دسته های تعریف شده توسط کاربر امکان پذیر می کند و بینش ارزشمندی را برای پزشکان ارائه می دهد.این کار به تلاش مداوم برای تقویت شفافیت ، تنوع و اثربخشی روشهای ارزیابی LLM کمک می کند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله ساخت مجموعه های ارزیابی خاص دامنه برای LLM-AS-A-Judge”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا