عنوان مقاله به انگلیسی | NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant Meeting Transcription |
عنوان مقاله به فارسی | مقاله Notsofar-1 Challenge: مجموعه داده های جدید ، پایه و وظایف برای رونویسی جلسات دور |
نویسندگان | Alon Vinnikov, Amir Ivry, Aviv Hurvitz, Igor Abramovski, Sharon Koubi, Ilya Gurvich, Shai Pe`er, Xiong Xiao, Benjamin Martinez Elizalde, Naoyuki Kanda, Xiaofei Wang, Shalev Shaer, Stav Yagev, Yossi Asher, Sunit Sivasankaran, Yifan Gong, Min Tang, Huaming Wang, Eyal Krupka |
زبان مقاله | انگلیسی |
فرمت مقاله: | |
تعداد صفحات | 8 |
دسته بندی موضوعات | Sound,Artificial Intelligence,Computation and Language,Audio and Speech Processing,صدا , هوش مصنوعی , محاسبات و زبان , پردازش صوتی و گفتار , |
توضیحات | Submitted 16 January, 2024; originally announced January 2024. , Comments: preprint |
توضیحات به فارسی | 16 ژانویه 2024 ارسال شد.در ابتدا ژانویه 2024 اعلام شد ، نظرات: preprint |
چکیده
We introduce the first Natural Office Talkers in Settings of Far-field Audio Recordings (“NOTSOFAR-1”) Challenge alongside datasets and baseline system. The challenge focuses on distant speaker diarization and automatic speech recognition (DASR) in far-field meeting scenarios, with single-channel and known-geometry multi-channel tracks, and serves as a launch platform for two new datasets: First, a benchmarking dataset of 315 meetings, averaging 6 minutes each, capturing a broad spectrum of real-world acoustic conditions and conversational dynamics. It is recorded across 30 conference rooms, featuring 4-8 attendees and a total of 35 unique speakers. Second, a 1000-hour simulated training dataset, synthesized with enhanced authenticity for real-world generalization, incorporating 15,000 real acoustic transfer functions. The tasks focus on single-device DASR, where multi-channel devices always share the same known geometry. This is aligned with common setups in actual conference rooms, and avoids technical complexities associated with multi-device tasks. It also allows for the development of geometry-specific solutions. The NOTSOFAR-1 Challenge aims to advance research in the field of distant conversational speech recognition, providing key resources to unlock the potential of data-driven methods, which we believe are currently constrained by the absence of comprehensive high-quality training and benchmarking datasets.
چکیده به فارسی (ترجمه ماشینی)
ما اولین گویندگان دفتر طبیعی را در تنظیمات ضبط های صوتی دور مزارع (“ `notsofar-1″) در کنار مجموعه داده ها و سیستم پایه معرفی می کنیم.این چالش بر روی دیایریزاسیون بلندگوهای دوردست و تشخیص خودکار گفتار (DASR) در سناریوهای جلسات دور مزارع ، با آهنگ های چند کانال تک کانال و شناخته شده-Geometry متمرکز شده و به عنوان یک بستر پرتاب برای دو مجموعه داده جدید خدمت می کند: اول ، یک مجموعه داده معیاراز 315 جلسه ، به طور متوسط هر کدام 6 دقیقه ، طیف گسترده ای از شرایط صوتی در دنیای واقعی و پویایی مکالمه را ضبط می کند.در 30 اتاق کنفرانس ثبت شده است که شامل 4-8 شرکت کننده و در مجموع 35 بلندگو منحصر به فرد است.دوم ، یک مجموعه داده آموزش شبیه سازی شده 1000 ساعته ، با اصالت پیشرفته برای تعمیم در دنیای واقعی ، که شامل 15000 عملکرد انتقال صوتی واقعی است.این کارها بر روی DASR تک دستگاه متمرکز است ، جایی که دستگاه های چند کانال همیشه همان هندسه شناخته شده را به اشتراک می گذارند.این با مجموعه های مشترک در اتاق های واقعی کنفرانس مطابقت دارد و از پیچیدگی های فنی مرتبط با کارهای چند دستگاهی جلوگیری می کند.همچنین امکان توسعه راه حل های خاص هندسه را فراهم می کند.چالش Notsofar-1 با هدف پیشبرد تحقیقات در زمینه تشخیص گفتار مکالمه از راه دور ، تأمین منابع کلیدی برای باز کردن پتانسیل روشهای داده محور ، که به اعتقاد ما در حال حاضر با عدم وجود آموزش جامع با کیفیت بالا و مجموعه داده های معیار محدود شده است.
توجه کنید این مقاله به زبان انگلیسی است. |
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|
نقد و بررسیها
هنوز بررسیای ثبت نشده است.