عنوان مقاله به انگلیسی | An Explainable Proxy Model for Multiabel Audio Segmentation |
عنوان مقاله به فارسی | مقاله یک مدل پروکسی قابل توضیح برای تقسیم بندی صوتی multiabel |
نویسندگان | Théo Mariotte, Antonio Almudévar, Marie Tahon, Alfonso Ortega |
زبان مقاله | انگلیسی |
فرمت مقاله: | |
تعداد صفحات | 5 |
دسته بندی موضوعات | Audio and Speech Processing,Artificial Intelligence,Machine Learning,Sound,Signal Processing,پردازش صوتی و گفتار , هوش مصنوعی , یادگیری ماشین , صدا , پردازش سیگنال , |
توضیحات | Submitted 17 January, 2024; v1 submitted 16 January, 2024; originally announced January 2024. , Comments: Accepted at ICASSP 2024 , Report number: AA001 |
توضیحات به فارسی | ارسال شده 17 ژانویه 2024 ؛V1 ارسال شده 16 ژانویه ، 2024 ؛در ابتدا ژانویه 2024 اعلام شد ، نظرات: در ICASSP 2024 ، شماره گزارش: AA001 پذیرفته شده است |
چکیده
Audio signal segmentation is a key task for automatic audio indexing. It consists of detecting the boundaries of class-homogeneous segments in the signal. In many applications, explainable AI is a vital process for transparency of decision-making with machine learning. In this paper, we propose an explainable multilabel segmentation model that solves speech activity (SAD), music (MD), noise (ND), and overlapped speech detection (OSD) simultaneously. This proxy uses the non-negative matrix factorization (NMF) to map the embedding used for the segmentation to the frequency domain. Experiments conducted on two datasets show similar performances as the pre-trained black box model while showing strong explainability features. Specifically, the frequency bins used for the decision can be easily identified at both the segment level (local explanations) and global level (class prototypes).
چکیده به فارسی (ترجمه ماشینی)
تقسیم بندی سیگنال صوتی یک کار اصلی برای نمایه سازی خودکار صوتی است.این شامل تشخیص مرزهای بخشهای همگن کلاس در سیگنال است.در بسیاری از برنامه ها ، AI قابل توضیح یک فرآیند حیاتی برای شفافیت تصمیم گیری با یادگیری ماشین است.در این مقاله ، ما یک مدل تقسیم بندی چند خطی قابل توضیح را پیشنهاد می کنیم که فعالیت گفتار (SAD) ، موسیقی (MD) ، نویز (ND) و تشخیص گفتار با هم همزمان (OSD) را به طور همزمان حل می کند.این پروکسی از فاکتورسازی ماتریس غیر منفی (NMF) برای نقشه برداری از تعبیه مورد استفاده برای تقسیم به دامنه فرکانس استفاده می کند.آزمایش های انجام شده بر روی دو مجموعه داده عملکرد مشابهی را نشان می دهد که مدل جعبه سیاه از پیش آموزش داده شده در حالی که ویژگی های توضیح قوی را نشان می دهد.به طور خاص ، سطل های فرکانس مورد استفاده برای تصمیم گیری را می توان به راحتی در هر دو سطح بخش (توضیحات محلی) و سطح جهانی (نمونه های اولیه کلاس) به راحتی شناسایی کرد.
توجه کنید این مقاله به زبان انگلیسی است. |
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|
نقد و بررسیها
هنوز بررسیای ثبت نشده است.