| عنوان مقاله به انگلیسی | Extract and Diffuse: Latent Integration for Improved Diffusion-based Speech and Vocal Enhancement | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله استخراج و انتشار: ادغام پنهان برای بهبود گفتار مبتنی بر انتشار و تقویت صدا | ||||||||
| نویسندگان | Yudong Yang, Zhan Liu, Wenyi Yu, Guangzhi Sun, Qiuqiang Kong, Chao Zhang | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 5 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Audio and Speech Processing,Machine Learning,Sound,پردازش صوتی و گفتار , یادگیری ماشین , صدا , | ||||||||
| توضیحات | Submitted 15 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارسال شده در 15 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Diffusion-based generative models have recently achieved remarkable results in speech and vocal enhancement due to their ability to model complex speech data distributions. While these models generalize well to unseen acoustic environments, they may not achieve the same level of fidelity as the discriminative models specifically trained to enhance particular acoustic conditions. In this paper, we propose Ex-Diff, a novel score-based diffusion model that integrates the latent representations produced by a discriminative model to improve speech and vocal enhancement, which combines the strengths of both generative and discriminative models. Experimental results on the widely used MUSDB dataset show relative improvements of 3.7% in SI-SDR and 10.0% in SI-SIR compared to the baseline diffusion model for speech and vocal enhancement tasks, respectively. Additionally, case studies are provided to further illustrate and analyze the complementary nature of generative and discriminative models in this context.
چکیده به فارسی (ترجمه ماشینی)
مدل های تولیدی مبتنی بر انتشار اخیراً به دلیل توانایی آنها در مدل سازی توزیع داده های گفتار پیچیده ، نتایج قابل توجهی در گفتار و تقویت صوتی به دست آورده اند.در حالی که این مدل ها به خوبی در محیط های صوتی غیب تعمیم می یابد ، ممکن است آنها به همان میزان وفاداری نرسند زیرا مدلهای تبعیض آمیز که به طور خاص برای تقویت شرایط خاص صوتی آموزش دیده اند.در این مقاله ، ما یک مدل انتشار مبتنی بر نمره جدید را پیشنهاد می کنیم که بازنمودهای نهفته تولید شده توسط یک مدل تبعیض آمیز را برای بهبود گفتار و تقویت آواز ، که ترکیب نقاط قوت هر دو مدل تولیدی و تبعیض آمیز است ، ادغام می کند.نتایج تجربی در مجموعه داده های MUSDB که به طور گسترده مورد استفاده قرار می گیرد ، بهبود نسبی 3.7 ٪ در SI-SDR و 10.0 ٪ در Si-SIR را در مقایسه با مدل انتشار پایه برای کارهای گفتار و تقویت صوتی نشان می دهد.علاوه بر این ، مطالعات موردی برای نشان دادن و تجزیه و تحلیل بیشتر ماهیت مکمل مدلهای تولیدی و تبعیض آمیز در این زمینه ارائه شده است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.