ترجمه فارسی مقاله فراتر از توزیع یکنواخت پرس و جو: پرس و جو گروهی کلید محور توجه

440,000 تومان

عنوان مقاله به انگلیسی Beyond Uniform Query Distribution: Key-Driven Grouped Query Attention
عنوان مقاله به فارسی ترجمه فارسی مقاله فراتر از توزیع یکنواخت پرس و جو: پرس و جو گروهی کلید محور توجه
نویسندگان Zohaib Khan, Muhammad Khaquan, Omer Tafveez, Burhanuddin Samiwala, Agha Ali Raza
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 11
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Computer Vision and Pattern Recognition,Machine Learning,چشم انداز رایانه و تشخیص الگوی , یادگیری ماشین ,
توضیحات Submitted 28 August, 2024; v1 submitted 15 August, 2024; originally announced August 2024. , Comments: 11 pages, 9 figures
توضیحات به فارسی ارسال شده 28 اوت 2024 ؛V1 ارسال شده در 15 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 11 صفحه ، 9 شکل
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

The Transformer architecture has revolutionized deep learning through its Self-Attention mechanism, which effectively captures contextual information. However, the memory footprint of Self-Attention presents significant challenges for long-sequence tasks. Grouped Query Attention (GQA) addresses this issue by grouping queries and mean-pooling the corresponding key-value heads – reducing the number of overall parameters and memory requirements in a flexible manner without adversely compromising model accuracy. In this work, we introduce enhancements to GQA, focusing on two novel approaches that deviate from the static nature of grouping: Key-Distributed GQA (KDGQA) and Dynamic Key-Distributed GQA (DGQA), which leverage information from the norms of the key heads to inform query allocation. Specifically, KDGQA looks at the ratios of the norms of the key heads during each forward pass, while DGQA examines the ratios of the norms as they evolve through training. Additionally, we present Perturbed GQA (PGQA) as a case-study, which introduces variability in (static) group formation via subtracting noise from the attention maps. Our experiments with up-trained Vision Transformers, for Image Classification on datasets such as CIFAR-10, CIFAR-100, Food101, and Tiny ImageNet, demonstrate the promise of these variants in improving upon the original GQA through more informed and adaptive grouping mechanisms: specifically ViT-L experiences accuracy gains of up to 8% when utilizing DGQA in comparison to GQA and other variants. We further analyze the impact of the number of Key-Value Heads on performance, underscoring the importance of utilizing query-key affinities. Code is available on GitHub.

چکیده به فارسی (ترجمه ماشینی)

معماری ترانسفورماتور از طریق مکانیسم خودآگاهی خود ، یادگیری عمیق را متحول کرده است ، که به طور موثری اطلاعات متنی را ضبط می کند.با این حال ، ردپای حافظه از خود ، چالش های مهمی را برای کارهای دنباله طولانی نشان می دهد.توجه به پرس و جو گروه بندی شده (GQA) با گروه بندی نمایش داده شد و میانگین جمع آوری سرهای با ارزش کلیدی مربوطه-کاهش تعداد پارامترهای کلی و الزامات حافظه به صورت انعطاف پذیر و بدون دقت مدل.در این کار ، ما پیشرفت هایی را به GQA معرفی می کنیم ، با تمرکز بر دو رویکرد جدید که از ماهیت استاتیک گروه بندی منحرف می شوند: GQA توزیع شده کلیدی (KDGQA) و GQA توزیع شده کلید پویا (DGQA) ، که از اطلاعات هنجارهای کلیدی استفاده می کنندسر برای اطلاع رسانی به تخصیص پرس و جو.به طور خاص ، KDGQA به نسبت هنجارهای سرهای کلیدی در طول هر پاس رو به جلو نگاه می کند ، در حالی که DGQA نسبت هنجارها را در حالی که از طریق آموزش تکامل می یابد ، بررسی می کند.علاوه بر این ، ما GQA آشفته (PGQA) را به عنوان یک مطالعه موردی ارائه می دهیم ، که از طریق کمبود نویز از نقشه های توجه ، تغییرپذیری در تشکیل گروه (استاتیک) را معرفی می کند.آزمایشات ما با ترانسفورماتورهای دیدنی و آموزش دیده ، برای طبقه بندی تصویر در مجموعه داده هایی مانند CIFAR-10 ، CIFAR-100 ، FOOD101 و TINY Imagenet ، نوید این انواع را در بهبود GQA اصلی از طریق مکانیسم های گروه بندی آگاهانه تر و سازگار تر نشان می دهد.به طور خاص VIT-L در استفاده از DGQA در مقایسه با GQA و سایر انواع ، دستاوردهای دقت حداکثر 8 ٪ را تجربه می کند.ما در ادامه تأثیر تعداد سرهای ارزش کلیدی بر عملکرد را مورد تجزیه و تحلیل قرار می دهیم ، و بر اهمیت استفاده از وابستگی های کلید پرس و جو تأکید می کنیم.کد در GitHub موجود است.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله فراتر از توزیع یکنواخت پرس و جو: پرس و جو گروهی کلید محور توجه”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا