مقاله یادگیری بازنمایی های گفتار گسسته با یادگیری متضاد و بازیابی زمان ثابت

10,000 تومان

دسته: دسته-بندی-نشده, مقاله علمی برچسب: Audio and Speech Processing, Sound, پردازش صدا, صدا و گفتار

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Learning Disentangled Speech Representations with Contrastive Learning and Time-Invariant Retrieval
عنوان مقاله به فارسی	مقاله یادگیری بازنمودهای گفتار متفرقه با یادگیری متضاد و بازیابی متغیر زمان
نویسندگان	Yimin Deng, Huaizhen Tang, Xulong Zhang, Ning Cheng, Jing Xiao, Jianzong Wang
زبان مقاله	انگلیسی
فرمت مقاله:	PDF
تعداد صفحات	5
دسته بندی موضوعات	Sound,Audio and Speech Processing,پردازش صدا , صدا و گفتار ,
توضیحات	Submitted 17 January, 2024; v1 submitted 15 January, 2024; originally announced January 2024. , Comments: Accepted by 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2024)
توضیحات به فارسی	ارسال شده 17 ژانویه 2024 ؛V1 ارسال شده در 15 ژانویه 2024 ؛در ابتدا ژانویه 2024 اعلام شد ، نظرات: پذیرفته شده توسط کنفرانس بین المللی IEEE در مورد آکوستیک ، گفتار و پردازش سیگنال (ICASSP2024)

چکیده

Voice conversion refers to transferring speaker identity with well-preserved content. Better disentanglement of speech representations leads to better voice conversion. Recent studies have found that phonetic information from input audio has the potential ability to well represent content. Besides, the speaker-style modeling with pre-trained models making the process more complex. To tackle these issues, we introduce a new method named “CTVC” which utilizes disentangled speech representations with contrastive learning and time-invariant retrieval. Specifically, a similarity-based compression module is used to facilitate a more intimate connection between the frame-level hidden features and linguistic information at phoneme-level. Additionally, a time-invariant retrieval is proposed for timbre extraction based on multiple segmentations and mutual information. Experimental results demonstrate that “CTVC” outperforms previous studies and improves the sound quality and similarity of converted results.

چکیده به فارسی (ترجمه ماشینی)

تبدیل صدا به انتقال هویت بلندگو با محتوای خوب حفظ شده اشاره دارد.جداسازی بهتر بازنمودهای گفتار منجر به تبدیل بهتر صدا می شود.مطالعات اخیر نشان داده است که اطلاعات آوایی از صوتی ورودی از توانایی بالقوه در نشان دادن محتوا برخوردار است.علاوه بر این ، مدل سازی به سبک بلندگو با مدلهای از پیش آموزش شده باعث پیچیده تر این روند می شود.برای مقابله با این مسائل ، ما روشی جدید به نام “CTVC” را معرفی می کنیم که از بازنمایی گفتار جدا شده با یادگیری متضاد و بازیابی متغیر زمان استفاده می کند.به طور خاص ، از یک ماژول فشرده سازی مبتنی بر شباهت برای تسهیل ارتباط صمیمی تر بین ویژگی های پنهان سطح فریم و اطلاعات زبانی در سطح واج استفاده می شود.علاوه بر این ، بازیابی زمان متغیر برای استخراج TIMBRE بر اساس تقسیم بندی های مختلف و اطلاعات متقابل ارائه شده است.نتایج تجربی نشان می دهد که “CTVC” از مطالعات قبلی بهتر عمل می کند و کیفیت صدا و شباهت نتایج تبدیل شده را بهبود می بخشد.

توجه کنید این مقاله به زبان انگلیسی است.

برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:

09395106248

توجه کنید که شرایط ترجمه به صورت زیر است:

قیمت هر صفحه ترجمه در حال حاضر 40 هزار تومان می باشد.
تحویل مقاله ترجمه شده به صورت فایل ورد می باشد.
زمان تحویل ترجمه مقاله در صورت داشتن تعداد صفحات عادی بین 3 تا 5 روز خواهد بود.
کیفیت ترجمه بسیار بالا می باشد. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “مقاله یادگیری بازنمایی های گفتار گسسته با یادگیری متضاد و بازیابی زمان ثابت”

مقاله یادگیری بازنمایی های گفتار گسسته با یادگیری متضاد و بازیابی زمان ثابت

چکیده

چکیده به فارسی (ترجمه ماشینی)

نقد و بررسی‌ها

محصولات مرتبط

مقاله یک رویکرد جدید برای تخصیص قدرت منصفانه برای NOMA در ارتباطات نور مرئی

مقاله طبقه بندی رادیوژیکی تومور مغزی

3DMASC: طبقه بندی ابرهای نقطه 3D قابل توضیح و قابل دسترس.کاربردی برای داده های Bi-spectral Topo-bathymetric lidar

مقاله 4D-ONIX: یک رویکرد یادگیری عمیق برای بازسازی فیلم های سه بعدی از تصاویر پرتونگاری (X-ray) پراکنده