عنوان مقاله به انگلیسی | An Empirical Study on the Impact of Positional Encoding in Transformer-based Monaural Speech Enhancement |
عنوان مقاله به فارسی | یک مطالعه تجربی در مورد تأثیر رمزگذاری موقعیتی در تقویت گفتار تک صدایی مبتنی بر ترانسفورماتور |
نویسندگان | Qiquan Zhang, Meng Ge, Hongxu Zhu, Eliathamby Ambikairajah, Qi Song, Zhaoheng Ni, Haizhou Li |
زبان مقاله | انگلیسی |
فرمت مقاله: | |
چکیده | Transformer architecture has enabled recent progress in speech enhancement. Since Transformers are position-agostic, positional encoding is the de facto standard component used to enable Transformers to distinguish the order of elements in a sequence. However, it remains unclear how positional encoding exactly impacts speech enhancement based on Transformer architectures. In this paper, we perform a comprehensive empirical study evaluating five positional encoding methods, i.e., Sinusoidal and learned absolute position embedding (APE), T5-RPE, KERPLE, as well as the Transformer without positional encoding (No-Pos), across both causal and noncausal configurations. We conduct extensive speech enhancement experiments, involving spectral mapping and masking methods. Our findings establish that positional encoding is not quite helpful for the models in a causal configuration, which indicates that causal attention may implicitly incorporate position information. In a noncausal configuration, the models significantly benefit from the use of positional encoding. In addition, we find that among the four position embeddings, relative position embeddings outperform APEs. |
تعداد صفحات | 5 |
چکیده به فارسی (ترجمه ماشینی) | معماری ترانسفورماتور پیشرفت اخیر در تقویت گفتار را فعال کرده است.از آنجا که ترانسفورماتورها موقعیت-آگوستیک هستند ، رمزگذاری موقعیتی یک مؤلفه استاندارد de facto است که برای ترانسفورماتورها برای تمایز ترتیب عناصر در یک دنباله استفاده می شود.با این حال ، هنوز مشخص نیست که چگونه رمزگذاری موقعیتی دقیقاً بر تقویت گفتار بر اساس معماری ترانسفورماتور تأثیر می گذارد.در این مقاله ، ما یک مطالعه جامع تجربی را انجام می دهیم که پنج روش رمزگذاری موقعیتی را ارزیابی می کند ، یعنی تعبیه موقعیت مطلق سینوسی و آموخته شده (APE) ، T5-RPE ، Kerple و همچنین ترانسفورماتور بدون رمزگذاری موقعیتی (NO-POS) در هر دوتنظیمات علی و غیرعادی.ما آزمایش های گسترده تقویت گفتار را انجام می دهیم ، شامل نقشه برداری طیفی و روش های نقاب زدن.یافته های ما نشان می دهد که رمزگذاری موقعیتی برای مدل ها در یک پیکربندی علی کاملاً مفید نیست ، که نشان می دهد توجه علّی ممکن است به طور ضمنی اطلاعات موقعیت را در بر بگیرد.در یک پیکربندی غیر یائسگی ، مدل ها به طور قابل توجهی از استفاده از رمزگذاری موقعیتی بهره مند می شوند.علاوه بر این ، ما می دانیم که در بین چهار تعبیه موقعیت ، تعبیه موقعیت نسبی از میمون های بهتر است. |
دسته بندی موضوعات | Audio and Speech Processing,Sound,پردازش صوتی و گفتار ، صدا ، |
توضیحات | Submitted 17 January, 2024; originally announced January 2024. , Comments: ICASSP 2024 |
توضیحات به فارسی | ارسال شده 17 ژانویه 2024 ؛در ابتدا ژانویه 2024 اعلام شد ، نظرات: ICASSP 2024 |
توجه کنید این مقاله به زبان انگلیسی است. |
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|
نقد و بررسیها
هنوز بررسیای ثبت نشده است.