| عنوان مقاله به انگلیسی | High-Resolution Speech Restoration with Latent Diffusion Model | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله ترمیم گفتار با وضوح بالا با مدل انتشار نهان | ||||||||
| نویسندگان | Tushar Dhyani, Florian Lux, Michele Mancusi, Giorgio Fabbro, Fritz Hohl, Ngoc Thang Vu | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 5 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Sound,Artificial Intelligence,Machine Learning,Audio and Speech Processing,صدا , هوش مصنوعی , یادگیری ماشین , پردازش صوتی و گفتار , | ||||||||
| توضیحات | Submitted 17 September, 2024; originally announced September 2024. | ||||||||
| توضیحات به فارسی | ارسال شده 17 سپتامبر 2024 ؛در ابتدا سپتامبر 2024 اعلام شد. | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Traditional speech enhancement methods often oversimplify the task of restoration by focusing on a single type of distortion. Generative models that handle multiple distortions frequently struggle with phone reconstruction and high-frequency harmonics, leading to breathing and gasping artifacts that reduce the intelligibility of reconstructed speech. These models are also computationally demanding, and many solutions are restricted to producing outputs in the wide-band frequency range, which limits their suitability for professional applications. To address these challenges, we propose Hi-ResLDM, a novel generative model based on latent diffusion designed to remove multiple distortions and restore speech recordings to studio quality, sampled at 48kHz. We benchmark Hi-ResLDM against state-of-the-art methods that leverage GAN and Conditional Flow Matching (CFM) components, demonstrating superior performance in regenerating high-frequency-band details. Hi-ResLDM not only excels in non-instrusive metrics but is also consistently preferred in human evaluation and performs competitively on intrusive evaluations, making it ideal for high-resolution speech restoration.
چکیده به فارسی (ترجمه ماشینی)
روشهای تقویت گفتار سنتی اغلب با تمرکز بر یک نوع واحد اعوجاج ، وظیفه ترمیم را بیش از حد ساده می کنند.مدل های تولیدی که تحریفات متعدد را تحمل می کنند ، اغلب با بازسازی تلفن و هارمونیک های با فرکانس بالا مبارزه می کنند و منجر به تنفس و گاز گرفتن مصنوعات می شوند که باعث کاهش درک گفتار بازسازی شده می شوند.این مدل ها همچنین از نظر محاسباتی خواستار هستند ، و بسیاری از راه حل ها به تولید خروجی ها در محدوده فرکانس باند گسترده محدود می شوند که این امر مناسب بودن آنها را برای برنامه های حرفه ای محدود می کند.برای پرداختن به این چالش ها ، ما Hi-ResLDM را پیشنهاد می کنیم ، یک مدل تولیدی جدید مبتنی بر انتشار نهفته که برای از بین بردن تحریفات متعدد و بازگرداندن ضبط گفتار به کیفیت استودیو ، نمونه برداری شده در 48kHz.ما HI-RESLDM را در برابر روشهای پیشرفته ای که از اجزای GAN و تطبیق جریان شرطی (CFM) بهره می برد ، محک می کنیم و عملکرد برتر در بازسازی جزئیات باند با فرکانس بالا را نشان می دهیم.HI-RESLDM نه تنها در معیارهای غیرقانونی برتری دارد بلکه در ارزیابی انسان نیز به طور مداوم ترجیح داده می شود و در ارزیابی های مزاحم انجام می شود و آن را برای ترمیم گفتار با وضوح بالا ایده آل می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.