,

ترجمه فارسی مقاله تشخیص تطبیقی ​​داده‌های پیش از آموزش برای مدل‌های زبانی بزرگ از طریق توکن‌های شگفت‌انگیز

19,000 تومان520,000 تومان

شناسه محصول: نامعلوم دسته: ,
عنوان مقاله به انگلیسی Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens
عنوان مقاله به فارسی ترجمه فارسی مقاله تشخیص تطبیقی ​​داده‌های پیش از آموزش برای مدل‌های زبانی بزرگ از طریق توکن‌های شگفت‌انگیز
نویسندگان Anqi Zhang, Chaofeng Wu
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 13
دسته بندی موضوعات Computation and Language,Cryptography and Security,Machine Learning,محاسبات و زبان , رمزنگاری و امنیت , یادگیری ماشین ,
توضیحات Submitted 30 July, 2024; originally announced July 2024.
توضیحات به فارسی ارسال شده 30 ژوئیه 2024 ؛در ابتدا ژوئیه 2024 اعلام شد.

توضیحات گزینه‌های خرید

دانلود مقاله اصل انگلیسی

با انتخاب این گزینه، می‌توانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.

قیمت: 19,000 تومان

دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحه‌ای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.

قیمت: 99,000 تومان

سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحه‌ای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.

قیمت: 520,000 تومان

زمان تحویل: 2 تا 3 روز کاری

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

While large language models (LLMs) are extensively used, there are raising concerns regarding privacy, security, and copyright due to their opaque training data, which brings the problem of detecting pre-training data on the table. Current solutions to this problem leverage techniques explored in machine learning privacy such as Membership Inference Attacks (MIAs), which heavily depend on LLMs’ capability of verbatim memorization. However, this reliance presents challenges, especially given the vast amount of training data and the restricted number of effective training epochs. In this paper, we propose an adaptive pre-training data detection method which alleviates this reliance and effectively amplify the identification. Our method adaptively locates textit{surprising tokens} of the input. A token is surprising to a LLM if the prediction on the token is “certain but wrong”, which refers to low Shannon entropy of the probability distribution and low probability of the ground truth token at the same time. By using the prediction probability of surprising tokens to measure textit{surprising}, the detection method is achieved based on the simple hypothesis that seeing seen data is less surprising for the model compared with seeing unseen data. The method can be applied without any access to the the pre-training data corpus or additional training like reference models. Our approach exhibits a consistent enhancement compared to existing methods in diverse experiments conducted on various benchmarks and models, achieving a maximum improvement of 29.5%. We also introduce a new benchmark Dolma-Book developed upon a novel framework, which employs book data collected both before and after model training to provide further evaluation.

چکیده به فارسی (ترجمه ماشینی)

در حالی که از مدل های بزرگ زبان (LLMS) به طور گسترده مورد استفاده قرار می گیرد ، به دلیل داده های آموزش مات آنها ، نگرانی هایی در مورد حریم خصوصی ، امنیت و حق چاپ وجود دارد ، که این مسئله مشکل تشخیص داده های قبل از آموزش را در جدول ایجاد می کند.راه حل های فعلی برای این تکنیک های اهرم مشکل که در حریم خصوصی یادگیری ماشین مانند حملات استنباط عضویت (MIA) مورد بررسی قرار می گیرد ، که به شدت به توانایی LLMS از حفظ کلمه ای بستگی دارد.با این حال ، این اتکا ، به ویژه با توجه به تعداد زیادی از داده های آموزشی و تعداد محدودی از دوره های آموزشی مؤثر ، چالش هایی را ارائه می دهد.در این مقاله ، ما یک روش تشخیص داده های قبل از آموزش تطبیقی ​​را پیشنهاد می کنیم که این اعتماد را کاهش می دهد و به طور مؤثر شناسایی را تقویت می کند.روش ما به صورت تطبیقی ​​ textit {نشانه های شگفت آور} از ورودی را پیدا می کند.اگر پیش بینی روی نشانه “قطعی اما اشتباه” باشد ، یک نشانه برای LLM تعجب آور است ، که به آنتروپی کم شانون از توزیع احتمال و احتمال کم هم در همان زمان اشاره دارد.با استفاده از احتمال پیش بینی نشانه های غافلگیرکننده برای اندازه گیری textit {شگفت آور} ، روش تشخیص بر اساس این فرضیه ساده حاصل می شود که دیدن داده های دیده شده برای مدل در مقایسه با دیدن داده های غیب کمتر تعجب آور است.این روش بدون دسترسی به داده های قبل از آموزش داده یا آموزش های اضافی مانند مدل های مرجع قابل استفاده است.رویکرد ما در مقایسه با روشهای موجود در آزمایشات متنوعی که بر روی معیارها و مدلهای مختلف انجام شده است ، پیشرفت مداوم دارد و به حداکثر بهبود 29.5 ٪ رسیده است.ما همچنین یک کتاب معیار جدید Dolma را که بر روی یک چارچوب جدید تهیه شده است ، معرفی می کنیم ، که از داده های کتاب جمع آوری شده قبل و بعد از آموزش مدل استفاده می کند تا ارزیابی بیشتر ارائه شود.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.
نوع دانلود

دانلود مقاله اصل انگلیسی, دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله, سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله تشخیص تطبیقی ​​داده‌های پیش از آموزش برای مدل‌های زبانی بزرگ از طریق توکن‌های شگفت‌انگیز”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا