ترجمه فارسی مقاله سیگنال در فضای توکن سازی کجاست؟

560,000 تومان

عنوان مقاله به انگلیسی Where is the signal in tokenization space?
عنوان مقاله به فارسی ترجمه فارسی مقاله سیگنال در فضای توکن سازی کجاست؟
نویسندگان Renato Lui Geh, Honghua Zhang, Kareem Ahmed, Benjie Wang, Guy Van den Broeck
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 14
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Computation and Language,Machine Learning,محاسبه و زبان , یادگیری ماشین ,
توضیحات Submitted 16 August, 2024; originally announced August 2024.
توضیحات به فارسی ارائه شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد.
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Large Language Models (LLMs) are typically shipped with tokenizers that deterministically encode text into so-called canonical token sequences, to which the LLMs assign probability values. One common assumption is that the probability of a piece of text is the probability of its canonical token sequence. However, the tokenization of a string is not unique: e.g., the Llama2 tokenizer encodes Tokens as [Tok,ens], but [Tok,en,s] also represents the same text. In this paper, we study non-canonical tokenizations. We prove that, given a string, it is computationally hard to find the most likely tokenization for an autoregressive LLM, as well as to compute the marginal probability over all possible tokenizations. We then show how the marginal is, in most cases, indistinguishable from the canonical probability. Surprisingly, we then empirically demonstrate the existence of a significant amount of signal hidden within tokenization space. Notably, by simply aggregating the probabilities of non-canonical tokenizations, we achieve improvements across a range of LLM evaluation benchmarks for a variety of architectures, including transformers and state space models.

چکیده به فارسی (ترجمه ماشینی)

مدل های بزرگ زبان (LLM) به طور معمول با نشانه هایی ارسال می شوند که به طور قطعی متن را در توالی های به اصطلاح توکن رمزگذاری می کنند ، که LLM ها مقادیر احتمال را به آنها اختصاص می دهند.یک فرض متداول این است که احتمال یک قطعه متن احتمال توالی توکن متعارف آن است.با این حال ، نشانه بندی یک رشته منحصر به فرد نیست: به عنوان مثال ، توکینیزر Llama2 نشانه های [Tok ، Ens] را رمزگذاری می کند ، اما [Tok ، en ، S] نیز همان متن را نشان می دهد.در این مقاله ، ما نشانه های غیر متعارف را مطالعه می کنیم.ما ثابت می کنیم که ، با توجه به یک رشته ، از نظر محاسباتی دشوار است که به احتمال زیاد برای یک LLM خودجوش ، و همچنین محاسبه احتمال حاشیه ای نسبت به همه نشانه های ممکن ، پیدا کنید.سپس ما نشان می دهیم که چگونه حاشیه در بیشتر موارد از احتمال متعارف قابل تشخیص نیست.با کمال تعجب ، ما سپس به صورت تجربی وجود مقدار قابل توجهی از سیگنال پنهان شده در فضای توکن سازی را نشان می دهیم.نکته قابل توجه ، با جمع آوری احتمالات نشانه های غیر متعارف ، ما به پیشرفت هایی در طیف وسیعی از معیارهای ارزیابی LLM برای انواع معماری ها ، از جمله ترانسفورماتورها و مدل های فضایی دولتی دست می یابیم.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله سیگنال در فضای توکن سازی کجاست؟”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا