| عنوان مقاله به انگلیسی | LeCov: Multi-level Testing Criteria for Large Language Models | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله LeCov: معیارهای تست چند سطحی برای مدلهای زبان بزرگ | ||||||||
| نویسندگان | Xuan Xie, Jiayang Song, Yuheng Huang, Da Song, Fuyuan Zhang, Felix Juefei-Xu, Lei Ma | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 14 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Software Engineering,Artificial Intelligence,Computation and Language,Cryptography and Security,Machine Learning,مهندسی نرم افزار , هوش مصنوعی , محاسبات و زبان , رمزنگاری و امنیت , یادگیری ماشین | ||||||||
| توضیحات | Submitted 19 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | ارسال شده در 19 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Large Language Models (LLMs) are widely used in many different domains, but because of their limited interpretability, there are questions about how trustworthy they are in various perspectives, e.g., truthfulness and toxicity. Recent research has started developing testing methods for LLMs, aiming to uncover untrustworthy issues, i.e., defects, before deployment. However, systematic and formalized testing criteria are lacking, which hinders a comprehensive assessment of the extent and adequacy of testing exploration. To mitigate this threat, we propose a set of multi-level testing criteria, LeCov, for LLMs. The criteria consider three crucial LLM internal components, i.e., the attention mechanism, feed-forward neurons, and uncertainty, and contain nine types of testing criteria in total. We apply the criteria in two scenarios: test prioritization and coverage-guided testing. The experiment evaluation, on three models and four datasets, demonstrates the usefulness and effectiveness of LeCov.
چکیده به فارسی (ترجمه ماشینی)
مدل های بزرگ زبان (LLMS) در بسیاری از حوزه های مختلف مورد استفاده قرار می گیرند ، اما به دلیل تفسیر محدود ، سؤالاتی در مورد چگونگی قابل اعتماد بودن آنها در دیدگاه های مختلف ، به عنوان مثال ، حقیقت و سمیت وجود دارد.تحقیقات اخیر با هدف کشف موضوعات غیرقابل اعتماد ، یعنی نقص ، قبل از استقرار ، توسعه روشهای آزمایش برای LLM ها را آغاز کرده است.با این حال ، معیارهای آزمایش سیستماتیک و رسمی فاقد آن هستند ، که این امر حاکی از ارزیابی جامع از میزان و کفایت اکتشافات است.برای کاهش این تهدید ، ما مجموعه ای از معیارهای آزمایش چند سطحی ، LECOV را برای LLM ها پیشنهاد می کنیم.این معیارها سه مؤلفه داخلی LLM مهم را در نظر می گیرند ، یعنی مکانیسم توجه ، نورون های خوراک رو به جلو و عدم اطمینان ، و در کل شامل نه نوع معیار آزمایش است.ما معیارها را در دو سناریو اعمال می کنیم: اولویت بندی آزمون و آزمایش هدایت پوشش.ارزیابی آزمایش ، در سه مدل و چهار مجموعه داده ، سودمندی و اثربخشی LECOV را نشان می دهد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.