| عنوان مقاله به انگلیسی | Benchmarking Large Language Model Uncertainty for Prompt Optimization | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله معیار عدم قطعیت مدل زبان بزرگ برای بهینه سازی سریع | ||||||||
| نویسندگان | Pei-Fu Guo, Yun-Da Tsai, Shou-De Lin | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 12 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Computation and Language,یادگیری ماشین , محاسبه و زبان , | ||||||||
| توضیحات | Submitted 16 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارائه شده 16 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Prompt optimization algorithms for Large Language Models (LLMs) excel in multi-step reasoning but still lack effective uncertainty estimation. This paper introduces a benchmark dataset to evaluate uncertainty metrics, focusing on Answer, Correctness, Aleatoric, and Epistemic Uncertainty. Through analysis of models like GPT-3.5-Turbo and Meta-Llama-3.1-8B-Instruct, we show that current metrics align more with Answer Uncertainty, which reflects output confidence and diversity, rather than Correctness Uncertainty, highlighting the need for improved metrics that are optimization-objective-aware to better guide prompt optimization. Our code and dataset are available at https://github.com/0Frett/PO-Uncertainty-Benchmarking.
چکیده به فارسی (ترجمه ماشینی)
الگوریتم های بهینه سازی سریع برای مدلهای بزرگ زبان (LLMS) در استدلال چند مرحله ای برتری دارند اما هنوز برآورد عدم اطمینان مؤثر ندارند.در این مقاله یک مجموعه داده معیار برای ارزیابی معیارهای عدم قطعیت ، با تمرکز بر پاسخ ، صحت ، آلاتوریک و عدم اطمینان معرفتی ارائه شده است.از طریق تجزیه و تحلیل مدلهایی مانند GPT-3.5 توربو و متا لما-3.1-8B–ما نشان می دهیم که معیارهای فعلی بیشتر با عدم اطمینان پاسخ ، که منعکس کننده اعتماد به نفس و تنوع است ، به جای عدم اطمینان صحیح ، نیاز به معیارهای بهبود یافته را نشان می دهد.که بهینه سازی-آگاه-آگاه برای راهنمایی بهتر بهینه سازی سریع هستند.کد و مجموعه داده ما در https://github.com/0frett/po-unctionalty-benchmarking در دسترس است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.