ترجمه فارسی مقاله به سوی عدم یادگیری دانش قوی: چارچوبی متخاصم برای ارزیابی و بهبود استحکام UnLearning در مدل‌های زبان بزرگ

260,000 تومان

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models
عنوان مقاله به فارسی	ترجمه فارسی مقاله به سوی عدم یادگیری دانش قوی: چارچوبی متخاصم برای ارزیابی و بهبود استحکام UnLearning در مدل‌های زبان بزرگ
نویسندگان	Hongbang Yuan, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
فرمت مقاله انگلیسی	PDF
زبان مقاله تحویلی	ترجمه فارسی
فرمت مقاله ترجمه شده	به صورت فایل ورد
نحوه تحویل ترجمه	دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات	13
لینک دانلود رایگان مقاله انگلیسی	دانلود مقاله
دسته بندی موضوعات	Computation and Language,Artificial Intelligence,Cryptography and Security,Machine Learning,محاسبات و زبان , هوش مصنوعی , رمزنگاری و امنیت , یادگیری ماشین ,
توضیحات	Submitted 20 August, 2024; originally announced August 2024. , Comments: 13 pages
توضیحات به فارسی	20 اوت 2024 ارسال شد.در ابتدا اوت 2024 اعلام شد. ، نظرات: 13 صفحه
اطلاعات بیشتر از این مقاله در پایگاه های علمی	INSPIRE HEP NASA ADS Google Scholar Semantic Scholar
فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

LLM have achieved success in many fields but still troubled by problematic content in the training corpora. LLM unlearning aims at reducing their influence and avoid undesirable behaviours. However, existing unlearning methods remain vulnerable to adversarial queries and the unlearned knowledge resurfaces after the manually designed attack queries. As part of a red-team effort to proactively assess the vulnerabilities of unlearned models, we design Dynamic Unlearning Attack (DUA), a dynamic and automated framework to attack these models and evaluate their robustness. It optimizes adversarial suffixes to reintroduce the unlearned knowledge in various scenarios. We find that unlearned knowledge can be recovered in $55.2\%$ of the questions, even without revealing the unlearned model’s parameters. In response to this vulnerability, we propose Latent Adversarial Unlearning (LAU), a universal framework that effectively enhances the robustness of the unlearned process. It formulates the unlearning process as a min-max optimization problem and resolves it through two stages: an attack stage, where perturbation vectors are trained and added to the latent space of LLMs to recover the unlearned knowledge, and a defense stage, where previously trained perturbation vectors are used to enhance unlearned model’s robustness. With our LAU framework, we obtain two robust unlearning methods, AdvGA and AdvNPO. We conduct extensive experiments across multiple unlearning benchmarks and various models, and demonstrate that they improve the unlearning effectiveness by over $53.5\%$, cause only less than a $11.6\%$ reduction in neighboring knowledge, and have almost no impact on the model’s general capabilities.

چکیده به فارسی (ترجمه ماشینی)

LLM در بسیاری از زمینه ها به موفقیت رسیده است ، اما هنوز هم با محتوای مشکل ساز در شرکت های آموزشی مشکل دارد.LLM Unlarning با هدف کاهش تأثیر آنها و جلوگیری از رفتارهای نامطلوب است.با این حال ، روشهای موجود در زمینه ترغیب موجود در معرض نمایش داده های مخالف و مجدداً از دانش غیرقانونی پس از نمایش داده های حمله دستی ، آسیب پذیر هستند.به عنوان بخشی از یک تلاش تیم قرمز برای ارزیابی پیشگیرانه آسیب پذیری های مدل های غیرقابل تحمل ، ما حمله به آشکار سازی پویا (DUA) ، یک چارچوب پویا و خودکار را برای حمله به این مدل ها و ارزیابی استحکام آنها طراحی می کنیم.این پسوندهای مخالف را بهینه می کند تا دانش موجود در سناریوهای مختلف را بازگرداند.ما می دانیم که دانش غیرقانونی می تواند در 55.2 $ \ ٪ $ از سؤالات بازیابی شود ، حتی بدون آشکار کردن پارامترهای مدل غیرقانونی.در پاسخ به این آسیب پذیری ، ما پیشنهاد می کنیم که آراء مخالف نهفته (LAU) ، یک چارچوب جهانی که به طور موثری استحکام فرآیند موجود را تقویت می کند.این روند فرآیند را به عنوان یک مشکل بهینه سازی حداقل حداکثر تدوین می کند و آن را در دو مرحله حل می کند: یک مرحله حمله ، که در آن بردارهای آشفتگی آموزش دیده و به فضای نهفته LLM ها برای بازیابی دانش موجود و یک مرحله دفاعی ، که قبلاً آموزش دیده است ، اضافه می شوند.از بردارهای آشفتگی برای تقویت استحکام مدل موجود استفاده می شود.با چارچوب LAU ما ، ما دو روش آماری درآمدی ، Advga و Advnpo را به دست می آوریم.ما آزمایش های گسترده ای را در معیارهای مختلف آشکار سازی و مدل های مختلف انجام می دهیم و نشان می دهیم که آنها اثربخشی فرسوده را با بیش از 53.5 \ $ $ بهبود می بخشند ، فقط باعث کاهش 11.6 $ $ $ در دانش همسایه نمی شوند و تقریباً هیچ تاثیری در کلی مدل ندارندقابلیت ها

فرمت ارائه ترجمه مقاله	تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله	بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه	بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها	کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله به سوی عدم یادگیری دانش قوی: چارچوبی متخاصم برای ارزیابی و بهبود استحکام UnLearning در مدل‌های زبان بزرگ”

ترجمه فارسی مقاله به سوی عدم یادگیری دانش قوی: چارچوبی متخاصم برای ارزیابی و بهبود استحکام UnLearning در مدل‌های زبان بزرگ

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله تشخیص گفتار بصری چند زبانه با یک مدل واحد با یادگیری با واحدهای گفتار بصری گسسته

مقاله تقسیم‌بندی خودکار سه بعدی اولتراسوند چندوجهی جفت انسان با استفاده از استراتژی‌های فیوژن و یادگیری عمیق

مقاله طراحی سیگنال های مرجع عمومی برای ارتباطات و سنجش یکپارچه با الگوریتم های با وضوح بالا

مقاله SymTC: یک شبکه ترانسفورماتور همزیستی-سی ان ان برای نمونه تقسیم بندی MRI ستون فقرات کمری