| عنوان مقاله به انگلیسی | Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله Cybench: چارچوبی برای ارزیابی قابلیت های امنیت سایبری و خطر مدل های زبانی | ||||||||
| نویسندگان | Andy K. Zhang, Neil Perry, Riya Dulepet, Eliot Jones, Justin W. Lin, Joey Ji, Celeste Menders, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 86 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Cryptography and Security,Artificial Intelligence,Computation and Language,Computers and Society,Machine Learning,رمزنگاری و امنیت , هوش مصنوعی , محاسبات و زبان , رایانه و جامعه , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 15 August, 2024; originally announced August 2024. , Comments: 86 pages, 7 figures | ||||||||
| توضیحات به فارسی | ارسال شده در 15 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 86 صفحه ، 7 شکل | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Language Model (LM) agents for cybersecurity that are capable of autonomously identifying vulnerabilities and executing exploits have the potential to cause real-world impact. Policymakers, model providers, and other researchers in the AI and cybersecurity communities are interested in quantifying the capabilities of such agents to help mitigate cyberrisk and investigate opportunities for penetration testing. Toward that end, we introduce Cybench, a framework for specifying cybersecurity tasks and evaluating agents on those tasks. We include 40 professional-level Capture the Flag (CTF) tasks from 4 distinct CTF competitions, chosen to be recent, meaningful, and spanning a wide range of difficulties. Each task includes its own description, starter files, and is initialized in an environment where an agent can execute bash commands and observe outputs. Since many tasks are beyond the capabilities of existing LM agents, we introduce subtasks, which break down a task into intermediary steps for more gradated evaluation; we add subtasks for 17 of the 40 tasks. To evaluate agent capabilities, we construct a cybersecurity agent and evaluate 7 models: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, and Llama 3.1 405B Instruct. Without guidance, we find that agents are able to solve only the easiest complete tasks that took human teams up to 11 minutes to solve, with Claude 3.5 Sonnet and GPT-4o having the highest success rates. Finally, subtasks provide more signal for measuring performance compared to unguided runs, with models achieving a 3.2\% higher success rate on complete tasks with subtask-guidance than without subtask-guidance. All code and data are publicly available at https://cybench.github.io
چکیده به فارسی (ترجمه ماشینی)
عوامل مدل زبان (LM) برای امنیت سایبری که قادر به شناسایی خودمختار آسیب پذیری ها و اجرای سوء استفاده ها هستند ، پتانسیل ایجاد تأثیر در دنیای واقعی را دارند.سیاست گذاران ، ارائه دهندگان مدل و سایر محققان در جوامع امنیت هوش مصنوعی و سایبری علاقه مند به کمیت توانایی های چنین عوامل برای کمک به کاهش سایبری و بررسی فرصت های آزمایش نفوذ هستند.به همین منظور ، ما Cybench را معرفی می کنیم ، چارچوبی برای مشخص کردن وظایف امنیت سایبری و ارزیابی عوامل در این کارها.ما شامل 40 کار حرفه ای در سطح حرفه ای Flag (CTF) از 4 مسابقه CTF مجزا ، انتخاب شده به عنوان اخیر ، معنی دار و طیف گسترده ای از مشکلات است.هر کار شامل توضیحات خاص خود ، پرونده های استارت است و در محیطی که یک عامل می تواند دستورات BASH را اجرا کند و خروجی ها را مشاهده کند ، آغاز می شود.از آنجا که بسیاری از کارها فراتر از توانایی های عوامل LM موجود است ، ما زیرنویس هایی را معرفی می کنیم که یک کار را برای ارزیابی های درجه بندی شده در مراحل واسطه ای تجزیه می کند.ما برای 17 مورد از 40 کار زیرنویس اضافه می کنیم.برای ارزیابی قابلیت های عامل ، ما یک عامل امنیت سایبری را می سازیم و 7 مدل را ارزیابی می کنیم: GPT-4O ، Claude 3 Opus ، Claude 3.5 Sonnet ، Mixtral 8x22B دستورالعمل ، Gemini 1.5 Pro ، Llama 3 70B Chat و Llama 3.1 405b Instractuct.بدون راهنمایی ، می فهمیم که مأمورین قادر به حل ساده ترین کارهای کامل هستند که تیم های انسانی را تا 11 دقیقه برای حل آن برداشتند ، با Claude 3.5 Sonnet و GPT-4O بالاترین میزان موفقیت را دارند.سرانجام ، Subtasks سیگنال بیشتری را برای اندازه گیری عملکرد در مقایسه با اجراهای بدون کنترل فراهم می کند ، با مدل های دستیابی به میزان موفقیت 3.2 \ ٪ بالاتر در کارهای کامل با زیرگروه زیرگروه نسبت به زیرگروه.کلیه کد ها و داده ها به صورت عمومی در https://cybench.github.io در دسترس هستند
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.