| عنوان مقاله به انگلیسی | Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله تبدیل سطل زباله به گنج: شتاب استنباط مدل های بزرگ زبان با بازیافت توکن | ||||||||
| نویسندگان | Xianzhen Luo, Yixuan Wang, Qingfu Zhu, Zhiming Zhang, Xuanyu Zhang, Qing Yang, Dongliang Xu, Wanxiang Che | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 10 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Computation and Language,Machine Learning,محاسبه و زبان , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 16 August, 2024; originally announced August 2024. , Comments: under review | ||||||||
| توضیحات به فارسی | ارائه شده 16 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: تحت بررسی | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
The rapid growth in the parameters of large language models (LLMs) has made inference latency a fundamental bottleneck, limiting broader application of LLMs. Speculative decoding represents a lossless approach to accelerate inference through a guess-and-verify paradigm, leveraging the parallel capabilities of modern hardware. Some speculative decoding methods rely on additional structures to guess draft tokens, such as small models or parameter-efficient architectures, which need extra training before use. Alternatively, retrieval-based train-free techniques build libraries from pre-existing corpora or by n-gram generation. However, they face challenges like large storage requirements, time-consuming retrieval, and limited adaptability. Observing that candidate tokens generated during the decoding process are likely to reoccur in future sequences, we propose Token Recycling. This approach stores candidate tokens in an adjacency matrix and employs a breadth-first search (BFS)-like algorithm on the matrix to construct a draft tree. The tree is then validated through tree attention. New candidate tokens from the decoding process are then used to update the matrix. Token Recycling requires \textless2MB of additional storage and achieves approximately 2x speedup across all sizes of LLMs. It significantly outperforms existing train-free methods by 30\% and even a training method by 25\%. It can be directly applied to any existing LLMs and tasks without the need for adaptation.
چکیده به فارسی (ترجمه ماشینی)
رشد سریع در پارامترهای مدل های بزرگ زبان (LLMS) باعث شده است تا زمان تأخیر استنباط یک تنگنا اساسی باشد و کاربرد گسترده تری از LLM ها را محدود کند.رمزگشایی سوداگرانه بیانگر یک رویکرد بدون ضرر برای تسریع استنباط از طریق یک الگوی حدس و مهم است و از قابلیت های موازی سخت افزار مدرن استفاده می کند.برخی از روش های رمزگشایی سوداگرانه برای حدس زدن نشانه های پیش نویس ، مانند مدل های کوچک یا معماری های کارآمد پارامترها ، که قبل از استفاده به آموزش های اضافی نیاز دارند ، به ساختارهای اضافی متکی هستند.از طرف دیگر ، تکنیک های بدون قطار مبتنی بر بازیابی ، کتابخانه هایی را از شرکت های از قبل موجود یا توسط N-Gram تولید می کند.با این حال ، آنها با چالش هایی مانند نیازهای بزرگ ذخیره سازی ، بازیابی وقت گیر و سازگاری محدود روبرو هستند.با مشاهده اینکه نشانه های کاندیدای تولید شده در طی فرآیند رمزگشایی احتمالاً در توالی های بعدی دوباره انجام می شود ، ما بازیافت نشانه را پیشنهاد می کنیم.این رویکرد نشانه های کاندیداها را در یک ماتریس مجاور ذخیره می کند و از الگوریتم مانند جستجوی وسعت (BFS) مانند ماتریس برای ساختن یک درخت پیش نویس استفاده می کند.سپس درخت از طریق توجه درخت تأیید می شود.سپس از نشانه های نامزد جدید از فرآیند رمزگشایی برای به روزرسانی ماتریس استفاده می شود.بازیافت توکن به \ textless2mb از ذخیره اضافی نیاز دارد و تقریباً 2 برابر سرعت در اندازه های LLM ها به دست می آید.این به طور قابل توجهی از روشهای موجود بدون قطار 30 \ ٪ و حتی یک روش آموزش 25 ٪ بهتر است.این امر می تواند مستقیماً برای هر LLM و وظایف موجود بدون نیاز به سازگاری اعمال شود.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.