| عنوان مقاله به انگلیسی | Kov: Transferable and Naturalistic Black-Box LLM Attacks using Markov Decision Processes and Tree Search | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله Kov: حملات LLM Black-Box قابل انتقال و طبیعی با استفاده از فرآیندهای تصمیم گیری مارکوف و جستجوی درخت | ||||||||
| نویسندگان | Robert J. Moss | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 16 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Cryptography and Security,Artificial Intelligence,Computation and Language,Machine Learning,رمزنگاری و امنیت , هوش مصنوعی , محاسبات و زبان , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 11 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | ارسال شده در 11 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Eliciting harmful behavior from large language models (LLMs) is an important task to ensure the proper alignment and safety of the models. Often when training LLMs, ethical guidelines are followed yet alignment failures may still be uncovered through red teaming adversarial attacks. This work frames the red-teaming problem as a Markov decision process (MDP) and uses Monte Carlo tree search to find harmful behaviors of black-box, closed-source LLMs. We optimize token-level prompt suffixes towards targeted harmful behaviors on white-box LLMs and include a naturalistic loss term, log-perplexity, to generate more natural language attacks for better interpretability. The proposed algorithm, Kov, trains on white-box LLMs to optimize the adversarial attacks and periodically evaluates responses from the black-box LLM to guide the search towards more harmful black-box behaviors. In our preliminary study, results indicate that we can jailbreak black-box models, such as GPT-3.5, in only 10 queries, yet fail on GPT-4$-$which may indicate that newer models are more robust to token-level attacks. All work to reproduce these results is open sourced (https://github.com/sisl/Kov.jl).
چکیده به فارسی (ترجمه ماشینی)
انتخاب رفتار مضر از مدلهای بزرگ زبان (LLM) یک کار مهم برای اطمینان از تراز مناسب و ایمنی مدل ها است.غالباً هنگام آموزش LLM ها ، دستورالعمل های اخلاقی رعایت می شود اما هنوز هم ممکن است شکست های تراز از طریق حملات تیمی با تیم قرمز کشف شود.این کار مشکل تیم سازی قرمز را به عنوان یک فرآیند تصمیم گیری مارکوف (MDP) قاب می کند و از جستجوی درخت مونت کارلو برای یافتن رفتارهای مضر از LLM های جعبه سیاه و منبع بسته استفاده می کند.ما پسوندهای سریع در سطح توکن را به سمت رفتارهای مضر هدفمند در LLM های جعبه سفید بهینه می کنیم و شامل یک اصطلاح از دست دادن طبیعت گرایانه ، ورود به سیستم ، برای ایجاد حملات زبان طبیعی تر برای تفسیر بهتر است.الگوریتم پیشنهادی ، KOV ، برای بهینه سازی حملات مخالف در LLM های جعبه سفید قطار می کند و به طور دوره ای پاسخ های LLM جعبه سیاه را برای هدایت جستجو به سمت رفتارهای مضر تر جعبه سیاه ارزیابی می کند.در مطالعه مقدماتی ما ، نتایج نشان می دهد که ما می توانیم مدل های جعبه سیاه مانند GPT-3.5 را تنها در 10 نمایش داده شود ، اما در GPT-4 $-$ شکست می خوریم که ممکن است نشان دهد که مدل های جدیدتر نسبت به حملات سطح توکن قوی تر هستندبشرتمام کارها برای تولید مثل این نتایج باز شده است (https://github.com/sisl/kov.jl).
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.