مقاله از درشت تا ریز: آموزش کارآمد برای ترانسفورماتورهای طیف‌گرام صوتی

تومان10.000

دسته: دسته-بندی-نشده, مقاله علمی برچسب: Audio and Speech Processing, Machine Learning, Sound, پردازش صوتی و گفتار, صدا, یادگیری ماشین

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers
عنوان مقاله به فارسی	مقاله از درشت تا جریمه: آموزش کارآمد برای ترانسفورماتورهای طیف سنجی صوتی
نویسندگان	Jiu Feng, Mehmet Hamza Erol, Joon Son Chung, Arda Senocak
زبان مقاله	انگلیسی
فرمت مقاله:	PDF
تعداد صفحات	5
دسته بندی موضوعات	Sound,Machine Learning,Audio and Speech Processing,صدا , یادگیری ماشین , پردازش صوتی و گفتار ,
توضیحات	Submitted 16 January, 2024; originally announced January 2024. , Comments: ICASSP 2024
توضیحات به فارسی	16 ژانویه 2024 ارسال شد.در ابتدا ژانویه 2024 اعلام شد ، نظرات: ICASSP 2024

چکیده

Transformers have become central to recent advances in audio classification. However, training an audio spectrogram transformer, e.g. AST, from scratch can be resource and time-intensive. Furthermore, the complexity of transformers heavily depends on the input audio spectrogram size. In this work, we aim to optimize AST training by linking to the resolution in the time-axis. We introduce multi-phase training of audio spectrogram transformers by connecting the seminal idea of coarse-to-fine with transformer models. To achieve this, we propose a set of methods for temporal compression. By employing one of these methods, the transformer model learns from lower-resolution (coarse) data in the initial phases, and then is fine-tuned with high-resolution data later in a curriculum learning strategy. Experimental results demonstrate that the proposed training mechanism for AST leads to improved (or on-par) performance with faster convergence, i.e. requiring fewer computational resources and less time. This approach is also generalizable to other AST-based methods regardless of their learning paradigms.

چکیده به فارسی (ترجمه ماشینی)

ترانسفورماتورها برای پیشرفت های اخیر در طبقه بندی صوتی مهم شده اند.با این حال ، آموزش یک ترانسفورماتور طیف سنجی صوتی ، به عنوان مثالAST ، از ابتدا می تواند منبع و زمان فشرده باشد.علاوه بر این ، پیچیدگی ترانسفورماتورها به شدت به اندازه طیف سنجی صوتی ورودی بستگی دارد.در این کار ، ما هدف ما بهینه سازی آموزش AST با پیوند به وضوح در محور زمان هستیم.ما با اتصال ایده اصلی از درشت به Fine با مدل های ترانسفورماتور ، آموزش چند فاز ترانسفورماتورهای طیف سنجی صوتی را معرفی می کنیم.برای دستیابی به این هدف ، ما مجموعه ای از روش ها را برای فشرده سازی زمانی پیشنهاد می کنیم.با استفاده از یکی از این روش ها ، مدل ترانسفورماتور از داده های با وضوح پایین (درشت) در مراحل اولیه یاد می گیرد ، و سپس با داده های با وضوح بالا بعداً در یک استراتژی یادگیری برنامه درسی تنظیم می شود.نتایج تجربی نشان می دهد که مکانیسم آموزشی پیشنهادی برای AST منجر به بهبود عملکرد (یا on-par) با همگرایی سریعتر می شود ، یعنی نیاز به منابع محاسباتی کمتری و زمان کمتری دارد.این رویکرد بدون در نظر گرفتن الگوی یادگیری آنها ، برای سایر روشهای مبتنی بر AST قابل تعمیم است.

توجه کنید این مقاله به زبان انگلیسی است.

برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:

09395106248

توجه کنید که شرایط ترجمه به صورت زیر است:

قیمت هر صفحه ترجمه در حال حاضر 40 هزار تومان می باشد.
تحویل مقاله ترجمه شده به صورت فایل ورد می باشد.
زمان تحویل ترجمه مقاله در صورت داشتن تعداد صفحات عادی بین 3 تا 5 روز خواهد بود.
کیفیت ترجمه بسیار بالا می باشد. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “مقاله از درشت تا ریز: آموزش کارآمد برای ترانسفورماتورهای طیف‌گرام صوتی”

مقاله از درشت تا ریز: آموزش کارآمد برای ترانسفورماتورهای طیف‌گرام صوتی

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله پیچیدگی توزیع طیفی امواج فیبریلاسیون سطح ، عود فرسایش پس از کاتتر را در فیبریلاسیون دهلیزی مداوم پیش بینی می کند

3DMASC: طبقه بندی ابرهای نقطه 3D قابل توضیح و قابل دسترس.کاربردی برای داده های Bi-spectral Topo-bathymetric lidar

مقاله 4D-ONIX: یک رویکرد یادگیری عمیق برای بازسازی فیلم های سه بعدی از تصاویر پرتونگاری (X-ray) پراکنده

مقاله در مورد گفتار قبل از تأکید به عنوان یک روش ساده و ارزان برای تقویت تقویت گفتار