| عنوان مقاله به انگلیسی | Learning Disentangled Speech Representations with Contrastive Learning and Time-Invariant Retrieval |
| عنوان مقاله به فارسی | مقاله یادگیری بازنمودهای گفتار متفرقه با یادگیری متضاد و بازیابی متغیر زمان |
| نویسندگان | Yimin Deng, Huaizhen Tang, Xulong Zhang, Ning Cheng, Jing Xiao, Jianzong Wang |
| زبان مقاله | انگلیسی |
| فرمت مقاله: | |
| تعداد صفحات | 5 |
| دسته بندی موضوعات | Sound,Audio and Speech Processing,پردازش صدا , صدا و گفتار , |
| توضیحات | Submitted 17 January, 2024; v1 submitted 15 January, 2024; originally announced January 2024. , Comments: Accepted by 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2024) |
| توضیحات به فارسی | ارسال شده 17 ژانویه 2024 ؛V1 ارسال شده در 15 ژانویه 2024 ؛در ابتدا ژانویه 2024 اعلام شد ، نظرات: پذیرفته شده توسط کنفرانس بین المللی IEEE در مورد آکوستیک ، گفتار و پردازش سیگنال (ICASSP2024) |
چکیده
Voice conversion refers to transferring speaker identity with well-preserved content. Better disentanglement of speech representations leads to better voice conversion. Recent studies have found that phonetic information from input audio has the potential ability to well represent content. Besides, the speaker-style modeling with pre-trained models making the process more complex. To tackle these issues, we introduce a new method named “CTVC” which utilizes disentangled speech representations with contrastive learning and time-invariant retrieval. Specifically, a similarity-based compression module is used to facilitate a more intimate connection between the frame-level hidden features and linguistic information at phoneme-level. Additionally, a time-invariant retrieval is proposed for timbre extraction based on multiple segmentations and mutual information. Experimental results demonstrate that “CTVC” outperforms previous studies and improves the sound quality and similarity of converted results.
چکیده به فارسی (ترجمه ماشینی)
تبدیل صدا به انتقال هویت بلندگو با محتوای خوب حفظ شده اشاره دارد.جداسازی بهتر بازنمودهای گفتار منجر به تبدیل بهتر صدا می شود.مطالعات اخیر نشان داده است که اطلاعات آوایی از صوتی ورودی از توانایی بالقوه در نشان دادن محتوا برخوردار است.علاوه بر این ، مدل سازی به سبک بلندگو با مدلهای از پیش آموزش شده باعث پیچیده تر این روند می شود.برای مقابله با این مسائل ، ما روشی جدید به نام “CTVC” را معرفی می کنیم که از بازنمایی گفتار جدا شده با یادگیری متضاد و بازیابی متغیر زمان استفاده می کند.به طور خاص ، از یک ماژول فشرده سازی مبتنی بر شباهت برای تسهیل ارتباط صمیمی تر بین ویژگی های پنهان سطح فریم و اطلاعات زبانی در سطح واج استفاده می شود.علاوه بر این ، بازیابی زمان متغیر برای استخراج TIMBRE بر اساس تقسیم بندی های مختلف و اطلاعات متقابل ارائه شده است.نتایج تجربی نشان می دهد که “CTVC” از مطالعات قبلی بهتر عمل می کند و کیفیت صدا و شباهت نتایج تبدیل شده را بهبود می بخشد.
| توجه کنید این مقاله به زبان انگلیسی است. |
|
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|


نقد و بررسیها
هنوز بررسیای ثبت نشده است.