| عنوان مقاله به انگلیسی | EnJa: Ensemble Jailbreak on Large Language Models |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله EnJa: جیلبریک گروهی روی مدلهای زبانی بزرگ |
| نویسندگان | Jiahao Zhang, Zilong Wang, Ruofan Wang, Xingjun Ma, Yu-Gang Jiang |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 18 |
| دسته بندی موضوعات | Cryptography and Security,Artificial Intelligence,Computation and Language,Machine Learning,رمزنگاری و امنیت , هوش مصنوعی , محاسبات و زبان , یادگیری ماشین , |
| توضیحات | Submitted 7 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده در 7 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 720,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
As Large Language Models (LLMs) are increasingly being deployed in safety-critical applications, their vulnerability to potential jailbreaks — malicious prompts that can disable the safety mechanism of LLMs — has attracted growing research attention. While alignment methods have been proposed to protect LLMs from jailbreaks, many have found that aligned LLMs can still be jailbroken by carefully crafted malicious prompts, producing content that violates policy regulations. Existing jailbreak attacks on LLMs can be categorized into prompt-level methods which make up stories/logic to circumvent safety alignment and token-level attack methods which leverage gradient methods to find adversarial tokens. In this work, we introduce the concept of Ensemble Jailbreak and explore methods that can integrate prompt-level and token-level jailbreak into a more powerful hybrid jailbreak attack. Specifically, we propose a novel EnJa attack to hide harmful instructions using prompt-level jailbreak, boost the attack success rate using a gradient-based attack, and connect the two types of jailbreak attacks via a template-based connector. We evaluate the effectiveness of EnJa on several aligned models and show that it achieves a state-of-the-art attack success rate with fewer queries and is much stronger than any individual jailbreak.
چکیده به فارسی (ترجمه ماشینی)
از آنجا که مدل های بزرگ زبان (LLMS) به طور فزاینده ای در برنامه های مهم ایمنی مستقر می شوند ، آسیب پذیری آنها در برابر زندانیان بالقوه-پیشبرد های مخرب که می تواند مکانیسم ایمنی LLM ها را غیرفعال کند-توجه تحقیقات رو به رشد را به خود جلب کرده است.در حالی که روش های تراز برای محافظت از LLM ها در برابر زندانیان پیشنهاد شده است ، بسیاری دریافتند که LLM های تراز شده هنوز هم می توانند با استفاده از پیشبرد های مخرب با دقت ساخته شده ، به زندان بیایند ، و محتوایی را ایجاد می کنند که مقررات خط مشی را نقض می کند.حملات فرار از زندان به LLM ها را می توان به روشهای سریع سطح طبقه بندی کرد که داستان ها/منطق را برای دور زدن هم ترازی ایمنی و روشهای حمله به سطح توکن تشکیل می دهند که از روشهای شیب برای یافتن نشانه های مخالف استفاده می کنند.در این کار ، ما مفهوم Jailbreak Ensemble را معرفی می کنیم و روشهایی را کشف می کنیم که می تواند زندانی سریع و سطح توکن را در یک حمله زندانیان هیبریدی قدرتمندتر ادغام کند.به طور خاص ، ما یک حمله جدید Enja را برای پنهان کردن دستورالعمل های مضر با استفاده از زندان سریع در سطح سریع ، افزایش میزان موفقیت حمله با استفاده از یک حمله مبتنی بر گرادیان پیشنهاد می کنیم و دو نوع حمله فرار از زندان را از طریق یک کانکتور مبتنی بر الگو وصل می کنیم.ما اثربخشی Enja را در چندین مدل هماهنگ ارزیابی می کنیم و نشان می دهیم که این امر به یک میزان موفقیت پیشرفته حمله با پرس و جوهای کمتری دست پیدا می کند و از هر زندانی فردی بسیار قوی تر است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.