عنوان مقاله به انگلیسی | Binaural Angular Separation Network |
عنوان مقاله به فارسی | مقاله شبکه جدایی زاویه ای دو گوش |
نویسندگان | Yang Yang, George Sung, Shao-Fu Shih, Hakan Erdogan, Chehung Lee, Matthias Grundmann |
زبان مقاله | انگلیسی |
فرمت مقاله: | |
تعداد صفحات | 5 |
دسته بندی موضوعات | Audio and Speech Processing,Machine Learning,Sound,پردازش صوتی و گفتار , یادگیری ماشین , صدا , |
توضیحات | Submitted 16 January, 2024; originally announced January 2024. , Comments: Accepted to ICASSP 2024 |
توضیحات به فارسی | 16 ژانویه 2024 ارسال شد.در ابتدا ژانویه 2024 اعلام شد ، نظرات: پذیرفته شده برای ICASSP 2024 |
چکیده
We propose a neural network model that can separate target speech sources from interfering sources at different angular regions using two microphones. The model is trained with simulated room impulse responses (RIRs) using omni-directional microphones without needing to collect real RIRs. By relying on specific angular regions and multiple room simulations, the model utilizes consistent time difference of arrival (TDOA) cues, or what we call delay contrast, to separate target and interference sources while remaining robust in various reverberation environments. We demonstrate the model is not only generalizable to a commercially available device with a slightly different microphone geometry, but also outperforms our previous work which uses one additional microphone on the same device. The model runs in real-time on-device and is suitable for low-latency streaming applications such as telephony and video conferencing.
چکیده به فارسی (ترجمه ماشینی)
ما یک مدل شبکه عصبی را پیشنهاد می کنیم که می تواند منابع گفتار هدف را از منابع مداخله در مناطق مختلف زاویه ای با استفاده از دو میکروفون جدا کند.این مدل با استفاده از میکروفن های omni-directional بدون نیاز به جمع آوری RIR های واقعی ، با پاسخ های ضربه ای شبیه سازی شده (RIRS) آموزش داده می شود.با تکیه بر مناطق زاویه ای خاص و شبیه سازی های مختلف اتاق ، این مدل از اختلاف زمانی مداوم نشانه های ورود (TDOA) یا آنچه ما آن را تضاد تأخیر می نامیم ، برای جدا کردن منابع هدف و تداخل در حالی که در محیط های مختلف Reverberation قوی باقی مانده است ، استفاده می کند.ما نشان می دهیم که مدل نه تنها برای یک دستگاه تجاری در دسترس با هندسه میکروفون کمی متفاوت قابل تعمیم است ، بلکه از کارهای قبلی ما نیز بهتر است که از یک میکروفون اضافی در همان دستگاه استفاده می کند.این مدل در زمان واقعی کار اجرا می شود و برای برنامه های پخش کم تحرک مانند کنفرانس تلفنی و ویدیویی مناسب است.
توجه کنید این مقاله به زبان انگلیسی است. |
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|
نقد و بررسیها
هنوز بررسیای ثبت نشده است.