ترجمه فارسی مقاله یادگیری زبان و تعبیه صوتی آگاهانه

500,000 تومان

عنوان مقاله به انگلیسی Learning Spatially-Aware Language and Audio Embedding
عنوان مقاله به فارسی ترجمه فارسی مقاله یادگیری زبان و تعبیه صوتی آگاهانه
نویسندگان Bhavika Devnani, Skyler Seto, Zakaria Aldeneh, Alessandro Toso, Elena Menyaylenko, Barry-John Theobald, Jonathan Sheaffer, Miguel Sarabia
فرمت مقاله انگلیسی PDF
زبان مقاله تحویلی ترجمه فارسی
فرمت مقاله ترجمه شده به صورت فایل ورد
نحوه تحویل ترجمه دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی)
تعداد صفحات 25
لینک دانلود رایگان مقاله انگلیسی دانلود مقاله
دسته بندی موضوعات Sound,Machine Learning,Audio and Speech Processing,صدا , یادگیری ماشین , پردازش صوتی و گفتار ,
توضیحات Submitted 17 September, 2024; originally announced September 2024. , Comments: 25 pages, 7 figures
توضیحات به فارسی ارسال شده 17 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد ، نظرات: 25 صفحه ، 7 شکل
اطلاعات بیشتر از این مقاله در پایگاه های علمی INSPIRE HEP

NASA ADS

Google Scholar

Semantic Scholar

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

چکیده

Humans can picture a sound scene given an imprecise natural language description. For example, it is easy to imagine an acoustic environment given a phrase like “the lion roar came from right behind me!”. For a machine to have the same degree of comprehension, the machine must know what a lion is (semantic attribute), what the concept of “behind” is (spatial attribute) and how these pieces of linguistic information align with the semantic and spatial attributes of the sound (what a roar sounds like when its coming from behind). State-of-the-art audio foundation models which learn to map between audio scenes and natural textual descriptions, are trained on non-spatial audio and text pairs, and hence lack spatial awareness. In contrast, sound event localization and detection models are limited to recognizing sounds from a fixed number of classes, and they localize the source to absolute position (e.g., 0.2m) rather than a position described using natural language (e.g., “next to me”). To address these gaps, we present ELSA a spatially aware-audio and text embedding model trained using multimodal contrastive learning. ELSA supports non-spatial audio, spatial audio, and open vocabulary text captions describing both the spatial and semantic components of sound. To train ELSA: (a) we spatially augment the audio and captions of three open-source audio datasets totaling 4,738 hours of audio, and (b) we design an encoder to capture the semantics of non-spatial audio, and the semantics and spatial attributes of spatial audio using contrastive learning. ELSA is competitive with state-of-the-art for both semantic retrieval and 3D source localization. In particular, ELSA achieves +2.8% mean audio-to-text and text-to-audio R@1 above the baseline, and outperforms by -11.6° mean-absolute-error in 3D source localization over the baseline.

چکیده به فارسی (ترجمه ماشینی)

با توجه به توضیحات نادرست زبان طبیعی ، انسان می تواند صحنه صوتی را تصویر کند.به عنوان مثال ، به راحتی می توان یک محیط آکوستیک را با توجه به عبارتی مانند “غرش شیر از پشت سر من!” تصور کرد.برای اینکه یک دستگاه همان درجه درک را داشته باشد ، دستگاه باید بداند که شیر چیست (ویژگی معنایی) ، چه مفهوم “پشت” (ویژگی فضایی) و چگونگی تراز این اطلاعات زبانی با ویژگی های معنایی و مکانی است.از صدا (آنچه غرش به نظر می رسد وقتی از پشت سر می آید).مدلهای پیشرفته و بنیاد صوتی که یاد می گیرند بین صحنه های صوتی و توضیحات متنی طبیعی نقشه برداری کنند ، بر روی جفت های صوتی و متن غیر فضایی آموزش داده می شوند و از این رو فاقد آگاهی مکانی هستند.در مقابل ، مدلهای محلی سازی و تشخیص رویداد صوتی محدود به شناخت صداها از تعداد مشخصی از کلاس ها هستند ، و آنها منبع را به موقعیت مطلق (به عنوان مثال ، 0.2m) بومی سازی می کنند تا موقعیتی که با استفاده از زبان طبیعی توصیف شده است (به عنوان مثال “در کنار من”).برای پرداختن به این شکاف ها ، ما ELSA را به عنوان یک مدل تعبیه شده و متنی از نظر مکانی آگاه و با استفاده از یادگیری متضاد چندمودال ارائه می دهیم.ELSA از زیرنویس های صوتی ، صوتی و فضایی غیر فضایی پشتیبانی می کند و شامل متن های متن واژگان باز است که هم مؤلفه های فضایی و هم معنایی صدا را توصیف می کند.برای آموزش ELSA: (الف) ما به طور مکانی صوتی و زیرنویس سه مجموعه داده صوتی با منبع باز را در مجموع 4،738 ساعت صوتی تقویت می کنیم ، و (ب) ما یک رمزگذار برای ضبط معناشناسی صوتی غیر فضایی و معناشناسی و مکانی طراحی می کنیم.ویژگی های صوتی مکانی با استفاده از یادگیری متضاد.ELSA برای محلی سازی بازیابی معنایی و منبع سه بعدی با پیشرفته ترین رقابت ها رقابت می کند.به طور خاص ، ELSA به میانگین 2.8 ٪ میانگین صوتی به متن و متن به Audio r@1 در بالای پایه دست می یابد ، و از -11.6 ° MEAN-ABSOLUTE-ROR در محلی سازی منبع سه بعدی بیش از پایه استفاده می کند.

فرمت ارائه ترجمه مقاله تحویل به صورت فایل ورد
زمان تحویل ترجمه مقاله بین 2 تا 3 روز پس از ثبت سفارش
کیفیت ترجمه بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
جداول و فرمول ها کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “ترجمه فارسی مقاله یادگیری زبان و تعبیه صوتی آگاهانه”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا