ترجمه فارسی مقاله تقویت مدل‌های زبانی صوتی از طریق آموزش پس از آموزش خود نظارتی با جفت‌های متنی و صوتی

620,000 تومان

عنوان مقاله به انگلیسی Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs
عنوان مقاله به فارسی ترجمه فارسی مقاله تقویت مدل‌های زبانی صوتی از طریق آموزش پس از آموزش خود نظارتی با جفت‌های متنی و صوتی
نویسندگان Anshuman Sinha, Camille Migozzi, Aubin Rey, Chao Zhang
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 31
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Sound,Machine Learning,Audio and Speech Processing,صدا , یادگیری ماشین , پردازش صوتی و گفتار ,
توضیحات Submitted 17 August, 2024; originally announced August 2024. , Comments: 31 pages, 11 figures
توضیحات به فارسی ارسال شده 17 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 31 صفحه ، 11 رقم
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Research on multi-modal contrastive learning strategies for audio and text has rapidly gained interest. Contrastively trained Audio-Language Models (ALMs), such as CLAP, which establish a unified representation across audio and language modalities, have enhanced the efficacy in various subsequent tasks by providing good text aligned audio encoders and vice versa. These improvements are evident in areas like zero-shot audio classification and audio retrieval, among others. However, the ability of these models to understand natural language and temporal relations is still a largely unexplored and open field for research. In this paper, we propose to equip the multi-modal ALMs with temporal understanding without loosing their inherent prior capabilities of audio-language tasks with a temporal instillation method TeminAL. We implement a two-stage training scheme TeminAL A $\&$ B, where the model first learns to differentiate between multiple sounds in TeminAL A, followed by a phase that instills a sense of time, thereby enhancing its temporal understanding in TeminAL B. This approach results in an average performance gain of $5.28\%$ in temporal understanding on the ESC-50 dataset, while the model remains competitive in zero-shot retrieval and classification tasks on the AudioCap/Clotho datasets. We also note the lack of proper evaluation techniques for contrastive ALMs and propose a strategy for evaluating ALMs in zero-shot settings. The general-purpose zero-shot model evaluation strategy ZSTE, is used to evaluate various prior models. ZSTE demonstrates a general strategy to evaluate all ZS contrastive models. The model trained with TeminAL successfully outperforms current models on most downstream tasks.

چکیده به فارسی (ترجمه ماشینی)

تحقیقات در مورد استراتژی های یادگیری متضاد چند منظوره برای صوتی و متن به سرعت مورد علاقه خود قرار گرفته است.مدل های صوتی به زبان صوتی متضاد (ALM) ، مانند CLAP ، که یک نمایش یکپارچه را در بین روشهای صوتی و زبان ایجاد می کند ، با ارائه رمزگذارهای صوتی تراز شده متن خوب و برعکس ، اثربخشی را در کارهای مختلف بعدی افزایش داده است.این پیشرفت ها در مناطقی مانند طبقه بندی صوتی صفر و بازیابی صوتی از جمله دیگر مشهود است.با این حال ، توانایی این مدل ها در درک زبان طبیعی و روابط زمانی هنوز یک زمینه کاملاً ناشناخته و باز برای تحقیق است.در این مقاله ، ما پیشنهاد می کنیم بدون از دست دادن توانایی های ذاتی آنها از کارهای صوتی به زبان صوتی با یک روش القای موقتی ، صدقه های چند منظوره را به درک زمانی تجهیز کنیم.ما یک طرح آموزشی دو مرحله ای Teminal A $ \ $ B را پیاده سازی می کنیم ، جایی که این مدل ابتدا یاد می گیرد که بین صداهای متعدد در Teminal A تمایز قائل شود ، و به دنبال آن مرحله ای که حس زمان را القا می کند ، در نتیجه درک زمانی آن را در Teminal B انجام می دهد.این رویکرد منجر به افزایش متوسط ​​عملکرد 5.28 \ $ $ در درک موقتی در مجموعه داده ESC-50 می شود ، در حالی که این مدل در کارهای بازیابی و طبقه بندی صفر در مجموعه داده های AudioCap/Clotho رقابتی باقی می ماند.ما همچنین به عدم وجود تکنیک های ارزیابی مناسب برای صدقه های متضاد توجه می کنیم و یک استراتژی برای ارزیابی صدقها در تنظیمات صفر را پیشنهاد می کنیم.استراتژی ارزیابی مدل صفر-شات عمومی ZSTE ، برای ارزیابی مدلهای مختلف قبلی استفاده می شود.ZSTE یک استراتژی کلی برای ارزیابی تمام مدل های متضاد ZS نشان می دهد.این مدل که با Teminal آموزش داده شده با موفقیت از مدل های فعلی در اکثر کارهای پایین دست بهتر عمل می کند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله تقویت مدل‌های زبانی صوتی از طریق آموزش پس از آموزش خود نظارتی با جفت‌های متنی و صوتی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا