| عنوان مقاله به انگلیسی | Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله داده های تولید شده با حریم خصوصی جعلی: خطرات پنهان مدل های خوب تنظیم شده زبان بر روی داده های تولید شده | ||||||||
| نویسندگان | Atilla Akkus, Mingjie Li, Junjie Chu, Michael Backes, Yang Zhang, Sinem Sav | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 15 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Cryptography and Security,Machine Learning,رمزنگاری و امنیت , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 12 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارسال شده 12 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Large language models (LLMs) have shown considerable success in a range of domain-specific tasks, especially after fine-tuning. However, fine-tuning with real-world data usually leads to privacy risks, particularly when the fine-tuning samples exist in the pre-training data. To avoid the shortcomings of real data, developers often employ methods to automatically generate synthetic data for fine-tuning, as data generated by traditional models are often far away from the real-world pertaining data. However, given the advanced capabilities of LLMs, the distinction between real data and LLM-generated data has become negligible, which may also lead to privacy risks like real data. In this paper, we present an empirical analysis of this underexplored issue by investigating a key question: “Does fine-tuning with LLM-generated data enhance privacy, or does it pose additional privacy risks?” Based on the structure of LLM’s generated data, our research focuses on two primary approaches to fine-tuning with generated data: supervised fine-tuning with unstructured generated data and self-instruct tuning. The number of successful Personal Information Identifier (PII) extractions for Pythia after fine-tuning our generated data raised over $20\%$. Furthermore, the ROC-AUC score of membership inference attacks for Pythia-6.9b after self-instruct methods also achieves more than $40\%$ improvements on ROC-AUC score than base models. The results indicate the potential privacy risks in LLMs when fine-tuning with the generated data.
چکیده به فارسی (ترجمه ماشینی)
مدلهای بزرگ زبان (LLM) در طیف وسیعی از کارهای خاص دامنه ، به ویژه پس از تنظیم دقیق ، موفقیت قابل توجهی نشان داده اند.با این حال ، تنظیم دقیق با داده های دنیای واقعی معمولاً منجر به خطرات حریم خصوصی می شود ، به ویژه هنگامی که نمونه های تنظیم دقیق در داده های قبل از آموزش وجود دارند.برای جلوگیری از کاستی های داده های واقعی ، توسعه دهندگان اغلب از روش هایی برای تولید خودکار داده های مصنوعی برای تنظیم دقیق استفاده می کنند ، زیرا داده های تولید شده توسط مدل های سنتی اغلب دور از داده های مربوط به دنیای واقعی هستند.با این حال ، با توجه به قابلیت های پیشرفته LLMS ، تمایز بین داده های واقعی و داده های تولید شده توسط LLM ناچیز شده است ، که ممکن است منجر به خطرات حریم خصوصی مانند داده های واقعی شود.در این مقاله ، ما با بررسی یک سؤال کلیدی ، تجزیه و تحلیل تجربی از این موضوع نامشخص ارائه می دهیم: “آیا تنظیم دقیق با داده های تولید شده LLM باعث افزایش حریم خصوصی می شود ، یا آیا این خطرات اضافی حریم خصوصی را ایجاد می کند؟”بر اساس ساختار داده های تولید شده LLM ، تحقیقات ما بر دو رویکرد اصلی برای تنظیم دقیق با داده های تولید شده متمرکز شده است: تنظیم دقیق با داده های تولید شده بدون ساختار و تنظیم خود ساختار.تعداد استخراج های موفق شناسه اطلاعات شخصی (PII) برای Pythia پس از تنظیم دقیق داده های تولید شده ما که بیش از 20 $ \ $ جمع آوری شده است.علاوه بر این ، نمره ROC-AUC حملات استنباط عضویت برای Pythia-6.9b پس از روش های خودآگاهی نیز بیش از 40 دلار \ ٪ $ در نمره ROC-AUC نسبت به مدل های پایه به دست می آید.نتایج حاکی از خطرات احتمالی حفظ حریم خصوصی در LLM ها در هنگام تنظیم دقیق با داده های تولید شده است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.