| عنوان مقاله به انگلیسی | Tamper-Resistant Safeguards for Open-Weight LLMs |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله ضمانتهای مقاوم در برابر دستکاری برای LLM های با وزن آزاد |
| نویسندگان | Rishub Tamirisa, Bhrugu Bharathi, Long Phan, Andy Zhou, Alice Gatti, Tarun Suresh, Maxwell Lin, Justin Wang, Rowan Wang, Ron Arel, Andy Zou, Dawn Song, Bo Li, Dan Hendrycks, Mantas Mazeika |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 26 |
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,Computation and Language,یادگیری ماشین , هوش مصنوعی , محاسبات و زبان , |
| توضیحات | Submitted 13 September, 2024; v1 submitted 1 August, 2024; originally announced August 2024. , Comments: Website: https://www.tamper-resistant-safeguards.com |
| توضیحات به فارسی | ارسال شده 13 سپتامبر 2024 ؛V1 ارسال شده در 1 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: وب سایت: https://www.tamper-safeguards.com |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 1,040,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Rapid advances in the capabilities of large language models (LLMs) have raised widespread concerns regarding their potential for malicious use. Open-weight LLMs present unique challenges, as existing safeguards lack robustness to tampering attacks that modify model weights. For example, recent works have demonstrated that refusal and unlearning safeguards can be trivially removed with a few steps of fine-tuning. These vulnerabilities necessitate new approaches for enabling the safe release of open-weight LLMs. We develop a method, called TAR, for building tamper-resistant safeguards into open-weight LLMs such that adversaries cannot remove the safeguards even after thousands of steps of fine-tuning. In extensive evaluations and red teaming analyses, we find that our method greatly improves tamper-resistance while preserving benign capabilities. Our results demonstrate that tamper-resistance is a tractable problem, opening up a promising new avenue to improve the safety and security of open-weight LLMs.
چکیده به فارسی (ترجمه ماشینی)
پیشرفت های سریع در قابلیت های مدل های بزرگ زبان (LLM) نگرانی های گسترده ای را در مورد پتانسیل آنها برای استفاده مخرب ایجاد کرده است.LLM های با وزن باز چالش های منحصر به فردی را ارائه می دهند ، زیرا حفاظت های موجود فاقد استحکام در حملات دستکاری هستند که وزن مدل را تغییر می دهد.به عنوان مثال ، آثار اخیر نشان داده اند که با چند مرحله تنظیم دقیق ، می توان از امتناع و حفاظت از ناآرامی ها به صورت بی اهمیت برداشته شد.این آسیب پذیری ها نیاز به رویکردهای جدید برای امکان انتشار ایمن LLMS با وزن باز دارند.ما روشی به نام TAR را برای ایجاد حفاظت از مقاوم در برابر دستکاری در LLM های با وزن باز ایجاد می کنیم به گونه ای که مخالفان نمی توانند حفاظت ها را حتی پس از هزاران مرحله تنظیم دقیق حذف کنند.در ارزیابی های گسترده و تجزیه و تحلیل تیمی قرمز ، می فهمیم که روش ما ضمن حفظ قابلیت های خوش خیم ، مقاومت در برابر دستکاری را تا حد زیادی بهبود می بخشد.نتایج ما نشان می دهد که مقاومت در برابر دستکاری یک مشکل قابل ردیابی است و یک راه جدید امیدوارکننده را برای بهبود ایمنی و امنیت LLMS با وزن آزاد باز می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.