ترجمه فارسی مقاله Kov: حملات LLM Black-Box قابل انتقال و طبیعی با استفاده از فرآیندهای تصمیم گیری مارکوف و جستجوی درخت

640,000 تومان

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Kov: Transferable and Naturalistic Black-Box LLM Attacks using Markov Decision Processes and Tree Search
عنوان مقاله به فارسی	ترجمه فارسی مقاله Kov: حملات LLM Black-Box قابل انتقال و طبیعی با استفاده از فرآیندهای تصمیم گیری مارکوف و جستجوی درخت
نویسندگان	Robert J. Moss
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	16
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Cryptography and Security,Artificial Intelligence,Computation and Language,Machine Learning,رمزنگاری و امنیت , هوش مصنوعی , محاسبات و زبان , یادگیری ماشین ,
توضیحات	Submitted 11 August, 2024; originally announced August 2024.
توضیحات به فارسی	ارسال شده در 11 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Eliciting harmful behavior from large language models (LLMs) is an important task to ensure the proper alignment and safety of the models. Often when training LLMs, ethical guidelines are followed yet alignment failures may still be uncovered through red teaming adversarial attacks. This work frames the red-teaming problem as a Markov decision process (MDP) and uses Monte Carlo tree search to find harmful behaviors of black-box, closed-source LLMs. We optimize token-level prompt suffixes towards targeted harmful behaviors on white-box LLMs and include a naturalistic loss term, log-perplexity, to generate more natural language attacks for better interpretability. The proposed algorithm, Kov, trains on white-box LLMs to optimize the adversarial attacks and periodically evaluates responses from the black-box LLM to guide the search towards more harmful black-box behaviors. In our preliminary study, results indicate that we can jailbreak black-box models, such as GPT-3.5, in only 10 queries, yet fail on GPT-4$-$which may indicate that newer models are more robust to token-level attacks. All work to reproduce these results is open sourced (https://github.com/sisl/Kov.jl).

چکیده به فارسی (ترجمه ماشینی)

انتخاب رفتار مضر از مدلهای بزرگ زبان (LLM) یک کار مهم برای اطمینان از تراز مناسب و ایمنی مدل ها است.غالباً هنگام آموزش LLM ها ، دستورالعمل های اخلاقی رعایت می شود اما هنوز هم ممکن است شکست های تراز از طریق حملات تیمی با تیم قرمز کشف شود.این کار مشکل تیم سازی قرمز را به عنوان یک فرآیند تصمیم گیری مارکوف (MDP) قاب می کند و از جستجوی درخت مونت کارلو برای یافتن رفتارهای مضر از LLM های جعبه سیاه و منبع بسته استفاده می کند.ما پسوندهای سریع در سطح توکن را به سمت رفتارهای مضر هدفمند در LLM های جعبه سفید بهینه می کنیم و شامل یک اصطلاح از دست دادن طبیعت گرایانه ، ورود به سیستم ، برای ایجاد حملات زبان طبیعی تر برای تفسیر بهتر است.الگوریتم پیشنهادی ، KOV ، برای بهینه سازی حملات مخالف در LLM های جعبه سفید قطار می کند و به طور دوره ای پاسخ های LLM جعبه سیاه را برای هدایت جستجو به سمت رفتارهای مضر تر جعبه سیاه ارزیابی می کند.در مطالعه مقدماتی ما ، نتایج نشان می دهد که ما می توانیم مدل های جعبه سیاه مانند GPT-3.5 را تنها در 10 نمایش داده شود ، اما در GPT-4 $-$ شکست می خوریم که ممکن است نشان دهد که مدل های جدیدتر نسبت به حملات سطح توکن قوی تر هستندبشرتمام کارها برای تولید مثل این نتایج باز شده است (https://github.com/sisl/kov.jl).

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله Kov: حملات LLM Black-Box قابل انتقال و طبیعی با استفاده از فرآیندهای تصمیم گیری مارکوف و جستجوی درخت”

ترجمه فارسی مقاله Kov: حملات LLM Black-Box قابل انتقال و طبیعی با استفاده از فرآیندهای تصمیم گیری مارکوف و جستجوی درخت

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله تقسیم بندی CT کبد از طریق رمزگذاری مبتنی بر PVT و رمزگشایی تصفیه شده

مقاله کالیبراسیون جبران مغناطیسی هوای مغناطیسی در سیستم های ناوبری مغناطیسی با استفاده از شبکه های زمان ثابت مایع

مقاله بهبود تشخیص احساس گفتار مستقل از سخنران با استفاده از سازگاری توزیع مشترک پویا

مقاله تشخیص گوشه کارآمد حافظه برای سنسورهای دید پویای مبتنی بر رویداد