| عنوان مقاله به انگلیسی | LLM Stability: A detailed analysis with some surprises |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله پایداری LLM: تحلیلی دقیق با برخی شگفتیها |
| نویسندگان | Berk Atil, Alexa Chittams, Liseng Fu, Ferhan Ture, Lixinyu Xu, Breck Baldwin |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 9 |
| دسته بندی موضوعات | Computation and Language,Artificial Intelligence,Machine Learning,Software Engineering,محاسبات و زبان , هوش مصنوعی , یادگیری ماشین , مهندسی نرم افزار , |
| توضیحات | Submitted 12 September, 2024; v1 submitted 6 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده 12 سپتامبر 2024 ؛V1 ارسال شده در 6 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 360,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
LLM (large language model) practitioners commonly notice that outputs can vary for the same inputs, but we have been unable to find work that evaluates LLM stability as the main objective. In our study of 6 deterministically configured LLMs across 8 common tasks with 5 identical runs, we see accuracy variations up to 10%. In addition, no LLM consistently delivers repeatable accuracy across all tasks. We also show examples of variation that are not normally distributed and compare configurations with zero-shot/few-shot prompting and fine-tuned examples. To better quantify what is going on, we introduce metrics focused on stability: TARr@N for the total agreement rate at N runs over raw output, and TARa@N for total agreement over parsed-out answers. We suggest that stability metrics be integrated into leader boards and research results going forward.
چکیده به فارسی (ترجمه ماشینی)
پزشکان LLM (مدل زبان بزرگ) معمولاً متوجه می شوند که خروجی ها می توانند برای همان ورودی ها متفاوت باشند ، اما ما نتوانستیم کارهایی را پیدا کنیم که ثبات LLM را به عنوان هدف اصلی ارزیابی کند.در مطالعه ما از 6 LLMS به طور قطعی پیکربندی شده در 8 کار مشترک با 5 اجرا یکسان ، ما شاهد تغییرات دقت تا 10 ٪ هستیم.علاوه بر این ، NO LLM به طور مداوم دقت قابل تکرار را در تمام کارها ارائه نمی دهد.ما همچنین نمونه هایی از تنوع را نشان می دهیم که به طور معمول توزیع نمی شوند و تنظیمات را با نمونه های صفر شات/چند شات و تنظیم دقیق مقایسه می کنیم.برای تعیین بهتر آنچه اتفاق می افتد ، معیارهای متمرکز بر ثبات را معرفی می کنیم: Tarr@n برای کل توافق نامه در N اجرا بیش از حد خام ، و TARA@n برای توافق کامل در مورد پاسخ های تجزیه شده.ما پیشنهاد می کنیم که معیارهای پایداری در تابلوهای رهبر و نتایج تحقیق به جلو ادغام شوند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.