| عنوان مقاله به انگلیسی | DIFFRENT: A Diffusion Model for Recording Environment Transfer of Speech |
| عنوان مقاله به فارسی | مقاله متفاوت: یک مدل انتشار برای ضبط محیط انتقال گفتار |
| نویسندگان | Jaekwon Im, Juhan Nam |
| زبان مقاله | انگلیسی |
| فرمت مقاله: | |
| تعداد صفحات | 5 |
| دسته بندی موضوعات | Sound,Audio and Speech Processing,پردازش صدا , صدا و گفتار , |
| توضیحات | Submitted 15 January, 2024; originally announced January 2024. , Comments: 4 pages, 2 figures |
| توضیحات به فارسی | ارسال شده در 15 ژانویه 2024 ؛در ابتدا ژانویه 2024 اعلام شد ، نظرات: 4 صفحه ، 2 شکل |
چکیده
Properly setting up recording conditions, including microphone type and placement, room acoustics, and ambient noise, is essential to obtaining the desired acoustic characteristics of speech. In this paper, we propose Diff-R-EN-T, a Diffusion model for Recording ENvironment Transfer which transforms the input speech to have the recording conditions of a reference speech while preserving the speech content. Our model comprises the content enhancer, the recording environment encoder, and the diffusion decoder which generates the target mel-spectrogram by utilizing both enhancer and encoder as input conditions. We evaluate DiffRENT in the speech enhancement and acoustic matching scenarios. The results show that DiffRENT generalizes well to unseen environments and new speakers. Also, the proposed model achieves superior performances in objective and subjective evaluation. Sound examples of our proposed model are available online.
چکیده به فارسی (ترجمه ماشینی)
تنظیم صحیح شرایط ضبط ، از جمله نوع میکروفون و قرارگیری ، آکوستیک اتاق و سر و صدای محیط ، برای به دست آوردن ویژگی های صوتی مورد نظر گفتار ضروری است.در این مقاله ، ما Diff-R-EN-T را پیشنهاد می کنیم ، یک مدل انتشار برای انتقال محیط ضبط که گفتار ورودی را تبدیل می کند تا ضمن حفظ محتوای گفتار ، شرایط ضبط یک گفتار مرجع را داشته باشد.مدل ما شامل تقویت کننده محتوا ، رمزگذار محیط ضبط و رمزگشایی انتشار است که با استفاده از تقویت کننده و رمزگذار به عنوان شرایط ورودی ، طیف سنجی هدف را تولید می کند.ما در تقویت گفتار و سناریوهای تطبیق آکوستیک متفاوت ارزیابی می کنیم.نتایج نشان می دهد که متفاوت به محیط های غیب و بلندگوهای جدید تعمیم می یابد.همچنین ، مدل پیشنهادی در ارزیابی عینی و ذهنی به عملکردهای برتر می رسد.نمونه های صوتی از مدل پیشنهادی ما بصورت آنلاین در دسترس است.
| توجه کنید این مقاله به زبان انگلیسی است. |
|
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|


نقد و بررسیها
هنوز بررسیای ثبت نشده است.