| عنوان مقاله به انگلیسی | Learning Spatially-Aware Language and Audio Embedding | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله یادگیری زبان و تعبیه صوتی آگاهانه | ||||||||
| نویسندگان | Bhavika Devnani, Skyler Seto, Zakaria Aldeneh, Alessandro Toso, Elena Menyaylenko, Barry-John Theobald, Jonathan Sheaffer, Miguel Sarabia | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 25 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Sound,Machine Learning,Audio and Speech Processing,صدا , یادگیری ماشین , پردازش صوتی و گفتار , | ||||||||
| توضیحات | Submitted 17 September, 2024; originally announced September 2024. , Comments: 25 pages, 7 figures | ||||||||
| توضیحات به فارسی | ارسال شده 17 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد ، نظرات: 25 صفحه ، 7 شکل | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Humans can picture a sound scene given an imprecise natural language description. For example, it is easy to imagine an acoustic environment given a phrase like “the lion roar came from right behind me!”. For a machine to have the same degree of comprehension, the machine must know what a lion is (semantic attribute), what the concept of “behind” is (spatial attribute) and how these pieces of linguistic information align with the semantic and spatial attributes of the sound (what a roar sounds like when its coming from behind). State-of-the-art audio foundation models which learn to map between audio scenes and natural textual descriptions, are trained on non-spatial audio and text pairs, and hence lack spatial awareness. In contrast, sound event localization and detection models are limited to recognizing sounds from a fixed number of classes, and they localize the source to absolute position (e.g., 0.2m) rather than a position described using natural language (e.g., “next to me”). To address these gaps, we present ELSA a spatially aware-audio and text embedding model trained using multimodal contrastive learning. ELSA supports non-spatial audio, spatial audio, and open vocabulary text captions describing both the spatial and semantic components of sound. To train ELSA: (a) we spatially augment the audio and captions of three open-source audio datasets totaling 4,738 hours of audio, and (b) we design an encoder to capture the semantics of non-spatial audio, and the semantics and spatial attributes of spatial audio using contrastive learning. ELSA is competitive with state-of-the-art for both semantic retrieval and 3D source localization. In particular, ELSA achieves +2.8% mean audio-to-text and text-to-audio R@1 above the baseline, and outperforms by -11.6° mean-absolute-error in 3D source localization over the baseline.
چکیده به فارسی (ترجمه ماشینی)
با توجه به توضیحات نادرست زبان طبیعی ، انسان می تواند صحنه صوتی را تصویر کند.به عنوان مثال ، به راحتی می توان یک محیط آکوستیک را با توجه به عبارتی مانند “غرش شیر از پشت سر من!” تصور کرد.برای اینکه یک دستگاه همان درجه درک را داشته باشد ، دستگاه باید بداند که شیر چیست (ویژگی معنایی) ، چه مفهوم “پشت” (ویژگی فضایی) و چگونگی تراز این اطلاعات زبانی با ویژگی های معنایی و مکانی است.از صدا (آنچه غرش به نظر می رسد وقتی از پشت سر می آید).مدلهای پیشرفته و بنیاد صوتی که یاد می گیرند بین صحنه های صوتی و توضیحات متنی طبیعی نقشه برداری کنند ، بر روی جفت های صوتی و متن غیر فضایی آموزش داده می شوند و از این رو فاقد آگاهی مکانی هستند.در مقابل ، مدلهای محلی سازی و تشخیص رویداد صوتی محدود به شناخت صداها از تعداد مشخصی از کلاس ها هستند ، و آنها منبع را به موقعیت مطلق (به عنوان مثال ، 0.2m) بومی سازی می کنند تا موقعیتی که با استفاده از زبان طبیعی توصیف شده است (به عنوان مثال “در کنار من”).برای پرداختن به این شکاف ها ، ما ELSA را به عنوان یک مدل تعبیه شده و متنی از نظر مکانی آگاه و با استفاده از یادگیری متضاد چندمودال ارائه می دهیم.ELSA از زیرنویس های صوتی ، صوتی و فضایی غیر فضایی پشتیبانی می کند و شامل متن های متن واژگان باز است که هم مؤلفه های فضایی و هم معنایی صدا را توصیف می کند.برای آموزش ELSA: (الف) ما به طور مکانی صوتی و زیرنویس سه مجموعه داده صوتی با منبع باز را در مجموع 4،738 ساعت صوتی تقویت می کنیم ، و (ب) ما یک رمزگذار برای ضبط معناشناسی صوتی غیر فضایی و معناشناسی و مکانی طراحی می کنیم.ویژگی های صوتی مکانی با استفاده از یادگیری متضاد.ELSA برای محلی سازی بازیابی معنایی و منبع سه بعدی با پیشرفته ترین رقابت ها رقابت می کند.به طور خاص ، ELSA به میانگین 2.8 ٪ میانگین صوتی به متن و متن به Audio r@1 در بالای پایه دست می یابد ، و از -11.6 ° MEAN-ABSOLUTE-ROR در محلی سازی منبع سه بعدی بیش از پایه استفاده می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.