| عنوان مقاله به انگلیسی | Constructing a Singing Style Caption Dataset | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله ساخت مجموعه داده شرح سبک آواز خواندن | ||||||||
| نویسندگان | Hyunjong Ok, Jaeho Lee | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 5 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Computation and Language,Artificial Intelligence,Machine Learning,Sound,Audio and Speech Processing,محاسبات و زبان , هوش مصنوعی , یادگیری ماشین , صدا , پردازش صوتی و گفتار , | ||||||||
| توضیحات | Submitted 15 September, 2024; originally announced September 2024. , Comments: Preprint | ||||||||
| توضیحات به فارسی | ارسال شده در 15 سپتامبر 2024 ؛در ابتدا در سپتامبر 2024 اعلام شد. ، نظرات: preprint | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Singing voice synthesis and conversion have emerged as significant subdomains of voice generation, leading to much demands on prompt-conditioned generation. Unlike common voice data, generating a singing voice requires an understanding of various associated vocal and musical characteristics, such as the vocal tone of the singer or emotional expressions. However, existing open-source audio-text datasets for voice generation tend to capture only a very limited range of attributes, often missing musical characteristics of the audio. To fill this gap, we introduce S2Cap, an audio-text pair dataset with a diverse set of attributes. S2Cap consists of pairs of textual prompts and music audio samples with a wide range of vocal and musical attributes, including pitch, volume, tempo, mood, singer’s gender and age, and musical genre and emotional expression. Utilizing S2Cap, we suggest an effective novel baseline algorithm for singing style captioning. Singing style captioning is a relative task to voice generation that generates text descriptions of vocal characteristics, which we first suggested. First, to mitigate the misalignment between the audio encoder and the text decoder, we present a novel mechanism called CRESCENDO, which utilizes positive-pair similarity learning to synchronize the embedding spaces of a pretrained audio encoder to get similar embeddings with a text encoder. We additionally supervise the model using the singer’s voice, which is demixed by the accompaniment. This supervision allows the model to more accurately capture vocal characteristics, leading to improved singing style captions that better reflect the style of the singer. The dataset and the codes are available at \bulurl{https://github.com/HJ-Ok/S2cap}.
چکیده به فارسی (ترجمه ماشینی)
آواز خواندن و تبدیل صدا به عنوان زیر دامنه قابل توجهی از تولید صدا پدید آمده است و منجر به تقاضای زیادی در نسل سریع با شرایط می شود.بر خلاف داده های صوتی رایج ، تولید صدای آواز خواندن نیاز به درک ویژگی های مختلف صوتی و موسیقی مرتبط ، مانند صدای آواز خواننده یا عبارات عاطفی دارد.با این حال ، مجموعه داده های متن متن صوتی موجود برای تولید صدا ، تمایل به ضبط فقط طیف بسیار محدودی از ویژگی ها ، که اغلب ویژگی های موسیقی از صدا را از دست می دهد.برای پر کردن این شکاف ، S2CAP ، یک مجموعه داده جفت متن متن با مجموعه متنوعی از ویژگی ها را معرفی می کنیم.S2CAP شامل جفت مطالب متنی و نمونه های صوتی موسیقی با طیف گسترده ای از ویژگی های صوتی و موسیقی از جمله زمین ، حجم ، سرعت ، خلق و خوی ، جنسیت و سن خواننده و ژانر موسیقی و بیان عاطفی است.با استفاده از S2CAP ، ما یک الگوریتم پایه اصلی مؤثر برای عنوان آواز خواندن را پیشنهاد می کنیم.عنوان آواز خواندن یک کار نسبی برای تولید صدا است که توضیحات متن از خصوصیات صوتی را ایجاد می کند ، که ما ابتدا پیشنهاد کردیم.اول ، برای کاهش سوء استفاده بین رمزگذار صوتی و رمزگذار متن ، ما یک مکانیسم جدید به نام Crescendo را ارائه می دهیم ، که از یادگیری شباهت جفت مثبت برای همگام سازی فضاهای جاسازی شده یک رمزگذار صوتی پیشین برای به دست آوردن جاسازی های مشابه با رمزگذار متن استفاده می کنیم.ما علاوه بر این ، مدل را با استفاده از صدای خواننده نظارت می کنیم ، که توسط همراهی از بین می رود.این نظارت به مدل اجازه می دهد تا ویژگی های صوتی را با دقت بیشتری ضبط کند و منجر به بهبود زیرنویس های سبک آواز شود که بهتر نشان دهنده سبک خواننده است.مجموعه داده ها و کدها در \ bulurl {https://github.com/hj-ok/s2cap} در دسترس هستند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.