| عنوان مقاله به انگلیسی | Where is the signal in tokenization space? | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله سیگنال در فضای توکن سازی کجاست؟ | ||||||||
| نویسندگان | Renato Lui Geh, Honghua Zhang, Kareem Ahmed, Benjie Wang, Guy Van den Broeck | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 14 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Computation and Language,Machine Learning,محاسبه و زبان , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 16 August, 2024; originally announced August 2024. | ||||||||
| توضیحات به فارسی | ارائه شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Large Language Models (LLMs) are typically shipped with tokenizers that deterministically encode text into so-called canonical token sequences, to which the LLMs assign probability values. One common assumption is that the probability of a piece of text is the probability of its canonical token sequence. However, the tokenization of a string is not unique: e.g., the Llama2 tokenizer encodes Tokens as [Tok,ens], but [Tok,en,s] also represents the same text. In this paper, we study non-canonical tokenizations. We prove that, given a string, it is computationally hard to find the most likely tokenization for an autoregressive LLM, as well as to compute the marginal probability over all possible tokenizations. We then show how the marginal is, in most cases, indistinguishable from the canonical probability. Surprisingly, we then empirically demonstrate the existence of a significant amount of signal hidden within tokenization space. Notably, by simply aggregating the probabilities of non-canonical tokenizations, we achieve improvements across a range of LLM evaluation benchmarks for a variety of architectures, including transformers and state space models.
چکیده به فارسی (ترجمه ماشینی)
مدل های بزرگ زبان (LLM) به طور معمول با نشانه هایی ارسال می شوند که به طور قطعی متن را در توالی های به اصطلاح توکن رمزگذاری می کنند ، که LLM ها مقادیر احتمال را به آنها اختصاص می دهند.یک فرض متداول این است که احتمال یک قطعه متن احتمال توالی توکن متعارف آن است.با این حال ، نشانه بندی یک رشته منحصر به فرد نیست: به عنوان مثال ، توکینیزر Llama2 نشانه های [Tok ، Ens] را رمزگذاری می کند ، اما [Tok ، en ، S] نیز همان متن را نشان می دهد.در این مقاله ، ما نشانه های غیر متعارف را مطالعه می کنیم.ما ثابت می کنیم که ، با توجه به یک رشته ، از نظر محاسباتی دشوار است که به احتمال زیاد برای یک LLM خودجوش ، و همچنین محاسبه احتمال حاشیه ای نسبت به همه نشانه های ممکن ، پیدا کنید.سپس ما نشان می دهیم که چگونه حاشیه در بیشتر موارد از احتمال متعارف قابل تشخیص نیست.با کمال تعجب ، ما سپس به صورت تجربی وجود مقدار قابل توجهی از سیگنال پنهان شده در فضای توکن سازی را نشان می دهیم.نکته قابل توجه ، با جمع آوری احتمالات نشانه های غیر متعارف ، ما به پیشرفت هایی در طیف وسیعی از معیارهای ارزیابی LLM برای انواع معماری ها ، از جمله ترانسفورماتورها و مدل های فضایی دولتی دست می یابیم.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.