| عنوان مقاله به انگلیسی | MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله MathBridge: مجموعه داده بزرگی برای ترجمه عبارات ریاضی گفتاری به فرمولهای $LaTeX$ برای خوانایی بهتر | ||||||||
| نویسندگان | Kyudan Jung, Sieun Hyeon, Jeong Youn Kwon, Nam-Joon Kim, Hyun Gon Ryu, Hyuk-Jae Lee, Jaeyoung Do | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 9 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Machine Learning,Artificial Intelligence,Computation and Language,یادگیری ماشین , هوش مصنوعی , محاسبات و زبان , | ||||||||
| توضیحات | Submitted 16 August, 2024; v1 submitted 7 August, 2024; originally announced August 2024. , Comments: 9 pages, 6 figures | ||||||||
| توضیحات به فارسی | ارائه شده 16 اوت 2024 ؛V1 ارسال شده در 7 اوت 2024 ؛در ابتدا اوت 2024 اعلام شد ، نظرات: 9 صفحه ، 6 شکل | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
Improving the readability of mathematical expressions in text-based document such as subtitle of mathematical video, is an significant task. To achieve this, mathematical expressions should be convert to compiled formulas. For instance, the spoken expression “x equals minus b plus or minus the square root of b squared minus four a c, all over two a” from automatic speech recognition is more readily comprehensible when displayed as a compiled formula $x = \frac{-b \pm \sqrt{b^2 – 4ac}}{2a}$. To convert mathematical spoken sentences to compiled formulas, two processes are required: spoken sentences are converted into LaTeX formulas, and LaTeX formulas are converted into compiled formulas. The latter can be managed by using LaTeX engines. However, there is no way to do the former effectively. Even if we try to solve this using language models, there is no paired data between spoken sentences and LaTeX formulas to train it. In this paper, we introduce MathBridge, the first extensive dataset for translating mathematical spoken sentences into LaTeX formulas. MathBridge comprises approximately 23 million LaTeX formulas paired with the corresponding mathematical spoken sentences. Through comprehensive evaluations, including fine-tuning with proposed data, we discovered that MathBridge significantly enhances the capabilities of pretrained language models for converting to LaTeX formulas from mathematical spoken sentences. Specifically, for the T5-large model, the sacreBLEU score increased from 4.77 to 46.8, demonstrating substantial enhancement.
چکیده به فارسی (ترجمه ماشینی)
بهبود خوانایی عبارات ریاضی در سند مبتنی بر متن مانند زیرنویس فیلم ریاضی ، یک کار مهم است.برای دستیابی به این هدف ، عبارات ریاضی باید به فرمول های گردآوری شده تبدیل شوند.به عنوان مثال ، بیان گفتاری `x برابر با منهای B به علاوه یا منهای ریشه مربع مربع B منهای چهار c ، بیش از دو” از تشخیص گفتار اتوماتیک “به راحتی قابل درک است وقتی به عنوان یک فرمول کامپایل شده $ x = \ frac نمایش داده می شود{-b \ pm \ sqrt {b^2 – 4ac}} {2a} $.برای تبدیل جملات گفتاری ریاضی به فرمول های گردآوری ، دو فرآیند لازم است: جملات گفتاری به فرمول های لاتکس تبدیل می شوند و فرمول های لاتکس به فرمول های کامپایل شده تبدیل می شوند.دومی را می توان با استفاده از موتورهای لاتکس مدیریت کرد.با این حال ، هیچ راهی برای انجام موثر اولی وجود ندارد.حتی اگر سعی کنیم این کار را با استفاده از مدل های زبانی حل کنیم ، هیچ داده ای زوج بین جملات گفتاری و فرمول های لاتکس برای آموزش آن وجود ندارد.در این مقاله ، ما ماتبریج را معرفی می کنیم ، اولین مجموعه داده گسترده برای ترجمه جملات گفتاری ریاضی به فرمول های لاتکس.ماتبریج شامل 23 میلیون فرمول لاتکس است که با جملات گفتاری ریاضی مربوطه جفت می شوند.از طریق ارزیابی های جامع ، از جمله تنظیم دقیق با داده های پیشنهادی ، ما متوجه شدیم که ماتبریج به طور قابل توجهی قابلیت های مدل های زبان پیش گرفته شده را برای تبدیل به فرمول های لاتکس از جملات گفتاری ریاضی افزایش می دهد.به طور خاص ، برای مدل بزرگ T5 ، نمره Sacrebleu از 4.77 به 46.8 افزایش یافته است ، که نشان دهنده پیشرفت قابل توجهی است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.