| عنوان مقاله به انگلیسی | Discrete Unit based Masking for Improving Disentanglement in Voice Conversion | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله پوشش مبتنی بر واحد گسسته برای بهبود جداسازی در تبدیل صدا | ||||||||
| نویسندگان | Philip H. Lee, Ismail Rasim Ulgen, Berrak Sisman | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 8 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Audio and Speech Processing,Machine Learning,Sound,پردازش صوتی و گفتار , یادگیری ماشین , صدا , | ||||||||
| توضیحات | Submitted 17 September, 2024; originally announced September 2024. , Comments: Accepted to IEEE SLT 2024 | ||||||||
| توضیحات به فارسی | ارسال شده 17 سپتامبر 2024 ؛در ابتدا در سپتامبر 2024 اعلام شد. ، نظرات: پذیرفته شده در IEEE SLT 2024 | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Voice conversion (VC) aims to modify the speaker’s identity while preserving the linguistic content. Commonly, VC methods use an encoder-decoder architecture, where disentangling the speaker’s identity from linguistic information is crucial. However, the disentanglement approaches used in these methods are limited as the speaker features depend on the phonetic content of the utterance, compromising disentanglement. This dependency is amplified with attention-based methods. To address this, we introduce a novel masking mechanism in the input before speaker encoding, masking certain discrete speech units that correspond highly with phoneme classes. Our work aims to reduce the phonetic dependency of speaker features by restricting access to some phonetic information. Furthermore, since our approach is at the input level, it is applicable to any encoder-decoder based VC framework. Our approach improves disentanglement and conversion performance across multiple VC methods, showing significant effectiveness, particularly in attention-based method, with 44% relative improvement in objective intelligibility.
چکیده به فارسی (ترجمه ماشینی)
تبدیل صدا (VC) با هدف اصلاح هویت گوینده ضمن حفظ محتوای زبانی.معمولاً ، روشهای VC از یک معماری رمزگذار رمزگذار استفاده می کنند ، که در آن جدا کردن هویت گوینده از اطلاعات زبانی بسیار مهم است.با این حال ، رویکردهای متلاشی مورد استفاده در این روشها محدود است زیرا ویژگی های بلندگو به محتوای آوایی گفته ها بستگی دارد و به خطر می اندازد.این وابستگی با روشهای مبتنی بر توجه تقویت می شود.برای پرداختن به این موضوع ، ما یک مکانیسم پوششی جدید در ورودی را قبل از رمزگذاری بلندگو معرفی می کنیم ، و برخی از واحدهای گفتار گسسته را که بسیار با کلاس های واج مطابقت دارد ، پوشانده ایم.کار ما با محدود کردن دسترسی به برخی از اطلاعات آوایی ، وابستگی آوایی از ویژگی های بلندگو را کاهش می دهد.علاوه بر این ، از آنجا که رویکرد ما در سطح ورودی است ، برای هر چارچوب VC مبتنی بر رمزگذار کاربردی کاربرد دارد.رویکرد ما باعث بهبود عملکرد و عملکرد تبدیل در چندین روش VC می شود ، و اثربخشی قابل توجهی ، به ویژه در روش مبتنی بر توجه ، با 44 ٪ بهبود نسبی در درک عینی نشان می دهد.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.