,

ترجمه فارسی مقاله ماموریت غیرممکن: نگاهی آماری به جیلبریک کردن دوره‌های LLM

19,000 تومان1,280,000 تومان

شناسه محصول: نامعلوم دسته: ,
عنوان مقاله به انگلیسی Mission Impossible: A Statistical Perspective on Jailbreaking LLMs
عنوان مقاله به فارسی ترجمه فارسی مقاله ماموریت غیرممکن: نگاهی آماری به جیلبریک کردن دوره‌های LLM
نویسندگان Jingtong Su, Julia Kempe, Karen Ullrich
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 32
دسته بندی موضوعات Machine Learning,Artificial Intelligence,Computation and Language,یادگیری ماشین , هوش مصنوعی , محاسبات و زبان ,
توضیحات Submitted 2 August, 2024; originally announced August 2024.
توضیحات به فارسی ارسال شده در 2 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحه‌ای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.

قیمت: 99,000 تومان

سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحه‌ای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.

قیمت: 1,280,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Large language models (LLMs) are trained on a deluge of text data with limited quality control. As a result, LLMs can exhibit unintended or even harmful behaviours, such as leaking information, fake news or hate speech. Countermeasures, commonly referred to as preference alignment, include fine-tuning the pretrained LLMs with carefully crafted text examples of desired behaviour. Even then, empirical evidence shows preference aligned LLMs can be enticed to harmful behaviour. This so called jailbreaking of LLMs is typically achieved by adversarially modifying the input prompt to the LLM. Our paper provides theoretical insights into the phenomenon of preference alignment and jailbreaking from a statistical perspective. Under our framework, we first show that pretrained LLMs will mimic harmful behaviour if present in the training corpus. Under that same framework, we then introduce a statistical notion of alignment, and lower-bound the jailbreaking probability, showing that it is unpreventable under reasonable assumptions. Based on our insights, we propose an alteration to the currently prevalent alignment strategy RLHF. Specifically, we introduce a simple modification to the RLHF objective, we call E-RLHF, that aims to increase the likelihood of safe responses. E-RLHF brings no additional training cost, and is compatible with other methods. Empirically, we demonstrate that E-RLHF outperforms RLHF on all alignment problems put forward by the AdvBench and HarmBench project without sacrificing model performance as measured by the MT-Bench project.

چکیده به فارسی (ترجمه ماشینی)

مدل های بزرگ زبان (LLMS) بر روی داده های متن با کنترل کیفیت محدود آموزش داده می شوند.در نتیجه ، LLMS می تواند رفتارهای ناخواسته یا حتی مضر مانند نشت اطلاعات ، اخبار جعلی یا گفتار نفرت را به نمایش بگذارد.اقدامات متقابل ، که معمولاً به عنوان تراز اولویت گفته می شود ، شامل تنظیم دقیق LLM های پیش ساخته با نمونه های متن با دقت ساخته شده از رفتار مورد نظر است.حتی پس از آن ، شواهد تجربی نشان می دهد که LLM های ترجیح داده شده می توانند به رفتار مضر باشند.این به اصطلاح فرار از LLMS به طور معمول با اصلاح متناقض ارسال سریع ورودی به LLM حاصل می شود.مقاله ما بینش نظری در مورد پدیده تراز اولویت و فرار از زندان از دیدگاه آماری ارائه می دهد.تحت چارچوب ما ، ابتدا نشان می دهیم که LLM های پیش ساخته در صورت وجود در قسمت آموزش ، رفتار مضر را تقلید می کنند.در همان چارچوب ، ما مفهوم آماری از تراز را معرفی می کنیم و احتمال فرار از زندان را نشان می دهیم ، نشان می دهد که تحت فرضیات معقول غیرقابل پیش بینی است.بر اساس بینش های ما ، ما یک تغییر در استراتژی تراز شیوع فعلی RLHF پیشنهاد می کنیم.به طور خاص ، ما یک اصلاح ساده را به هدف RLHF معرفی می کنیم ، ما E-RLHF می نامیم ، که هدف آن افزایش احتمال پاسخ های ایمن است.E-RLHF هیچ هزینه آموزش اضافی به ارمغان نمی آورد و با روش های دیگر سازگار است.از نظر تجربی ، ما نشان می دهیم که E-RLHF از RLHF از همه مشکلات تراز ارائه شده توسط پروژه Advbench و Harmbench بدون قربانی کردن عملکرد مدل که توسط پروژه MT-BENCH اندازه گیری می شود ، بهتر عمل می کند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله, سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله ماموریت غیرممکن: نگاهی آماری به جیلبریک کردن دوره‌های LLM”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا