عنوان مقاله به انگلیسی | Music2Latent: Consistency Autoencoders for Latent Audio Compression | ||||||||
عنوان مقاله به فارسی | ترجمه فارسی مقاله Music2Latent: رمزگذارهای خودکار سازگاری برای فشرده سازی صوتی پنهان | ||||||||
نویسندگان | Marco Pasini, Stefan Lattner, George Fazekas | ||||||||
فرمت مقاله انگلیسی | |||||||||
زبان مقاله تحویلی | ترجمه فارسی | ||||||||
فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
تعداد صفحات | 9 | ||||||||
لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
دسته بندی موضوعات | Sound,Machine Learning,Audio and Speech Processing,صدا , یادگیری ماشین , پردازش صوتی و گفتار , | ||||||||
توضیحات | Submitted 12 August, 2024; originally announced August 2024. , Comments: Accepted to ISMIR 2024 | ||||||||
توضیحات به فارسی | ارائه شده 12 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد. ، نظرات: پذیرفته شده برای Ismir 2024 | ||||||||
اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Efficient audio representations in a compressed continuous latent space are critical for generative audio modeling and Music Information Retrieval (MIR) tasks. However, some existing audio autoencoders have limitations, such as multi-stage training procedures, slow iterative sampling, or low reconstruction quality. We introduce Music2Latent, an audio autoencoder that overcomes these limitations by leveraging consistency models. Music2Latent encodes samples into a compressed continuous latent space in a single end-to-end training process while enabling high-fidelity single-step reconstruction. Key innovations include conditioning the consistency model on upsampled encoder outputs at all levels through cross connections, using frequency-wise self-attention to capture long-range frequency dependencies, and employing frequency-wise learned scaling to handle varying value distributions across frequencies at different noise levels. We demonstrate that Music2Latent outperforms existing continuous audio autoencoders in sound quality and reconstruction accuracy while achieving competitive performance on downstream MIR tasks using its latent representations. To our knowledge, this represents the first successful attempt at training an end-to-end consistency autoencoder model.
چکیده به فارسی (ترجمه ماشینی)
بازنمایی های صوتی کارآمد در یک فضای نهفته مداوم فشرده برای مدل سازی صوتی تولیدی و بازیابی اطلاعات موسیقی (MIR) بسیار مهم است.با این حال ، برخی از خودروهای صوتی موجود محدودیت هایی دارند ، مانند روشهای آموزش چند مرحله ای ، نمونه گیری تکراری آهسته یا کیفیت بازسازی کم.ما Music2Latent را معرفی می کنیم ، یک اتوآنمان صوتی که با استفاده از مدل های سازگاری بر این محدودیت ها غلبه می کند.Music2Latent نمونه ها را به یک فضای پنهان مداوم فشرده در یک فرآیند آموزش انتهایی به پایان می رساند ، در حالی که امکان بازسازی تک قلو با وفاداری بالا را فراهم می کند.نوآوری های کلیدی شامل تهویه مدل قوام در خروجی های رمزگذار Upsampled در تمام سطوح از طریق اتصالات متقابل ، استفاده از خود با توجه فرکانس برای ضبط وابستگی های فرکانس دوربرد و استفاده از مقیاس گذاری فرکانس عاقلانه برای رسیدگی به توزیع های مختلف ارزش در فرکانس ها در نویزهای مختلف است.سطح.ما نشان می دهیم که Music2Latent نسبت به اتوآنمان های صوتی مداوم موجود در کیفیت صدا و دقت بازسازی ضمن دستیابی به عملکرد رقابتی در کارهای MIR پایین دست با استفاده از بازنمایی های نهفته خود ، بهتر عمل می کند.به دانش ما ، این اولین تلاش موفق برای آموزش یک مدل AutoEncoder سازگاری پایان به پایان است.
فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
نقد و بررسیها
هنوز بررسیای ثبت نشده است.