| عنوان مقاله به انگلیسی | Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله توجه درختی: رمزگشایی آگاه از توپولوژی برای توجه طولانی مدت در خوشههای GPU |
| نویسندگان | Vasudev Shyam, Jonathan Pilault, Emily Shepperd, Quentin Anthony, Beren Millidge |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 12 |
| دسته بندی موضوعات | Machine Learning,Computation and Language,یادگیری ماشین , محاسبه و زبان , |
| توضیحات | Submitted 14 August, 2024; v1 submitted 7 August, 2024; originally announced August 2024. |
| توضیحات به فارسی | ارسال شده در 14 اوت 2024 ؛V1 ارسال شده در 7 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
سفارش ترجمه فارسی مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، ترجمه فارسی مقاله را نیز سفارش میدهید.
قیمت: 480,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Self-attention is the core mathematical operation of modern transformer architectures and is also a significant computational bottleneck due to its quadratic complexity in the sequence length. In this work, we derive the scalar energy function whose gradient computes the self-attention block, thus elucidating the theoretical underpinnings of self-attention, providing a Bayesian interpretation of the operation and linking it closely with energy-based models such as Hopfield Networks. Our formulation reveals that the reduction across the sequence axis can be efficiently computed in parallel through a tree reduction. Our algorithm, for parallelizing attention computation across multiple GPUs enables cross-device decoding to be performed asymptotically faster (up to 8x faster in our experiments) than alternative approaches such as Ring Attention, while also requiring significantly less communication volume and incurring 2x less peak memory. Our code is publicly available here: url{https://github.com/Zyphra/tree_attention}.
چکیده به فارسی (ترجمه ماشینی)
خود توجه ، عملکرد ریاضی اصلی معماری های ترانسفورماتور مدرن است و همچنین یک تنگنا محاسباتی قابل توجه به دلیل پیچیدگی درجه دوم آن در طول دنباله است.در این کار ، ما عملکرد انرژی مقیاس را به دست می آوریم که شیب آن بلوک خودآگاهی را محاسبه می کند ، بنابراین زیربنای نظری خود را مورد توجه قرار می دهد ، تفسیر بیزی از این عملیات را ارائه می دهد و آن را از نزدیک با مدلهای مبتنی بر انرژی مانند شبکه هاپفیلد پیوند می دهد.فرمولاسیون ما نشان می دهد که کاهش در محور توالی می تواند به طور موازی از طریق کاهش درخت محاسبه شود.الگوریتم ما ، برای موازی سازی محاسبات توجه در چندین GPU ، رمزگشایی متقابل دستگاه را به صورت بدون علامت سریعتر (حداکثر 8 برابر سریعتر در آزمایشات ما) انجام می دهد تا از رویکردهای جایگزین مانند توجه حلقه ، در عین حال نیاز به حجم ارتباطی قابل توجهی کمتری داشته و حافظه 2x کمتر اوج را متحمل می کندبشرکد ما در اینجا به صورت عمومی در دسترس است: url {https://github.com/zyphra/tree_attention.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.