| عنوان مقاله به انگلیسی | Combining audio control and style transfer using latent diffusion |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله ترکیب کنترل صدا و انتقال سبک با استفاده از انتشار پنهان |
| نویسندگان | Nils Demerlé, Philippe Esling, Guillaume Doras, David Genova |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 8 |
| دسته بندی موضوعات | Sound,Machine Learning,Audio and Speech Processing,Machine Learning,صدا , یادگیری ماشین , پردازش صوتی و گفتار , یادگیری ماشین , |
| توضیحات | Submitted 31 July, 2024; originally announced August 2024. , Comments: ISMIR 2024 , Journal ref: Proceedings of the 25th Int. Society for Music Information Retrieval Conference, San Francisco, United States, 2024 |
| توضیحات به فارسی | ارسال 31 ژوئیه 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: Ismir 2024 ، مجله Ref: مجموعه مقالات 25 int.کنفرانس بازیابی اطلاعات موسیقی برای موسیقی ، سانفرانسیسکو ، ایالات متحده ، 2024 |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 320,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Deep generative models are now able to synthesize high-quality audio signals, shifting the critical aspect in their development from audio quality to control capabilities. Although text-to-music generation is getting largely adopted by the general public, explicit control and example-based style transfer are more adequate modalities to capture the intents of artists and musicians. In this paper, we aim to unify explicit control and style transfer within a single model by separating local and global information to capture musical structure and timbre respectively. To do so, we leverage the capabilities of diffusion autoencoders to extract semantic features, in order to build two representation spaces. We enforce disentanglement between those spaces using an adversarial criterion and a two-stage training strategy. Our resulting model can generate audio matching a timbre target, while specifying structure either with explicit controls or through another audio example. We evaluate our model on one-shot timbre transfer and MIDI-to-audio tasks on instrumental recordings and show that we outperform existing baselines in terms of audio quality and target fidelity. Furthermore, we show that our method can generate cover versions of complete musical pieces by transferring rhythmic and melodic content to the style of a target audio in a different genre.
چکیده به فارسی (ترجمه ماشینی)
اکنون مدل های تولیدی عمیق قادر به سنتز سیگنال های صوتی با کیفیت بالا هستند و جنبه مهم در توسعه آنها را از کیفیت صدا به قابلیت های کنترل تغییر می دهند.اگرچه نسل متن به موسیقی عمدتاً مورد استقبال عموم مردم قرار می گیرد ، اما کنترل صریح و انتقال سبک مبتنی بر مثال ، روشهای کافی تر برای ضبط اهداف هنرمندان و نوازندگان است.در این مقاله ، ما هدف ما متحد کردن کنترل صریح و انتقال سبک در یک مدل واحد با جدا کردن اطلاعات محلی و جهانی برای ضبط ساختار موسیقی و Timbre به ترتیب هستیم.برای انجام این کار ، ما به منظور ساختن دو فضای نمایندگی ، از قابلیت های خودروهای انتشار برای استخراج ویژگی های معنایی استفاده می کنیم.ما با استفاده از یک معیار مخالف و یک استراتژی آموزش دو مرحله ای ، بین آن فضاها را اجرا می کنیم.مدل حاصل ما می تواند تطبیق صوتی را با هدف Timbre ایجاد کند ، در حالی که ساختار را با کنترل های صریح یا از طریق مثال صوتی دیگر مشخص می کند.ما مدل خود را در زمینه انتقال TIMBRE یک شات و وظایف MIDI به Audio در ضبط های ابزاری ارزیابی می کنیم و نشان می دهیم که از خط مقدمات موجود از نظر کیفیت صدا و وفاداری هدف بهتر عمل می کنیم.علاوه بر این ، ما نشان می دهیم که روش ما می تواند با انتقال محتوای ریتمیک و ملودیک به سبک یک صدای هدف در یک ژانر متفاوت ، نسخه های جلد قطعات کامل موسیقی را تولید کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |



نقد و بررسیها
هنوز بررسیای ثبت نشده است.