مقاله یادگیری فدرال شخصی شده ارتباطی کارآمد برای تسک های گفتار به متن

عنوان مقاله به انگلیسی	Communication-Efficient Personalized Federated Learning for Speech-to-Text Tasks
عنوان مقاله به فارسی	یادگیری فدرال شخصی شده ارتباطی کارآمد برای تسک های گفتار به متن
نویسندگان	Yichao Du, Zhirui Zhang, Linan Yue, Xu Huang, Yuqing Zhang, Tong Xu, Linli Xu, Enhong Chen
زبان مقاله	انگلیسی
فرمت مقاله:	PDF
چکیده	To protect privacy and meet legal regulations, federated learning (FL) has gained significant attention for training speech-to-text (S2T) systems, including automatic speech recognition (ASR) and speech translation (ST). However, the commonly used FL approach (i.e., \textsc{FedAvg}) in S2T tasks typically suffers from extensive communication overhead due to multi-round interactions based on the whole model and performance degradation caused by data heterogeneity among clients.To address these issues, we propose a personalized federated S2T framework that introduces \textsc{FedLoRA}, a lightweight LoRA module for client-side tuning and interaction with the server to minimize communication overhead, and \textsc{FedMem}, a global model equipped with a $k$-nearest-neighbor ($k$NN) classifier that captures client-specific distributional shifts to achieve personalization and overcome data heterogeneity. Extensive experiments based on Conformer and Whisper backbone models on CoVoST and GigaSpeech benchmarks show that our approach significantly reduces the communication overhead on all S2T tasks and effectively personalizes the global model to overcome data heterogeneity.
تعداد صفحات	7
چکیده به فارسی (ترجمه ماشینی)	برای محافظت از حریم خصوصی و رعایت مقررات قانونی ، یادگیری فدراسیون (FL) برای آموزش سیستم های گفتار به متن (S2T) ، از جمله تشخیص خودکار گفتار (ASR) و ترجمه گفتار (ST) توجه قابل توجهی را به خود جلب کرده است.با این حال ، رویکرد FL متداول (به عنوان مثال ، \ textsc {fedavg}) در کارهای S2T به طور معمول از سربار ارتباطات گسترده به دلیل تعامل چند دور بر اساس کل مدل و تخریب عملکرد ناشی از ناهمگونی داده در بین مشتریان رنج می برد. برای پرداختن به این موضوعات، ما یک چارچوب S2T فدراسیون شخصی را پیشنهاد می کنیم که \ textsc {fedlora} ، یک ماژول لورا سبک وزن برای تنظیم سمت مشتری و تعامل با سرور برای به حداقل رساندن سربار ارتباطات ، و \ textsc {fedmem} ، یک مدل جهانی مجهز به $ k است.طبقه بندی کننده $-Nearest-Deighbor ($ k $ nn) که برای دستیابی به شخصی سازی و غلبه بر ناهمگونی داده ها ، تغییرات توزیع خاص مشتری را ضبط می کند.آزمایش های گسترده ای بر اساس مدل های ستون فقرات Conformer و Whisper بر روی معیارهای گوسفند و gigaspeech نشان می دهد که رویکرد ما به طور قابل توجهی سربار ارتباطات را در تمام کارهای S2T کاهش می دهد و به طور مؤثر مدل جهانی را برای غلبه بر ناهمگونی داده ها شخصی می کند.
دسته بندی موضوعات	Computation and Language,Sound,Audio and Speech Processing,محاسبات و زبان ، صدا ، صوتی و گفتار ،
توضیحات	Submitted 18 January, 2024; originally announced January 2024. , Comments: ICASSP 2024
توضیحات به فارسی	ارائه شده در 18 ژانویه 2024 ؛در ابتدا ژانویه 2024 اعلام شد ، نظرات: ICASSP 2024

توجه کنید این مقاله به زبان انگلیسی است.

برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:

09395106248

توجه کنید که شرایط ترجمه به صورت زیر است:

قیمت هر صفحه ترجمه در حال حاضر 40 هزار تومان می باشد.
تحویل مقاله ترجمه شده به صورت فایل ورد می باشد.
زمان تحویل ترجمه مقاله در صورت داشتن تعداد صفحات عادی بین 3 تا 5 روز خواهد بود.
کیفیت ترجمه بسیار بالا می باشد. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه می‌شود.
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج می‌شوند.