مقاله بهبود کیفیت OCR در اسناد تاریخی قرن نوزدهم با استفاده از یک رویکرد مبتنی بر یادگیری ماشین ترکیبی

249,950 تومان

انتخاب پلن

پایه

دسترسی به فقط PDF زبان اصلی

150,000 تومان

پایه + کتاب های همراه فارسی

دسترسی به فقط PDF زبان اصلی + کتاب های همراه فارسی (کوییز، پرسش و پاسخ، نکته ساده، نکته دانشگاهی و آموزشی)

350,000 تومان

حرفه ای (پیشنهادی)

دسترسی به فقط PDF زبان اصلی + کتاب های همراه فارسی (کوییز، پرسش و پاسخ، نکته ساده، نکته دانشگاهی و آموزشی) + عضویت در سامانه مرور هوشمند مخصوص این محصول

برای توضیحات بیشتر در مورد سامانه مرور هوشمند اینجا را کلیک کنید

600,000 تومان

کامل و گواهی‌دار

دسترسی به فقط PDF زبان اصلی + کتاب های همراه فارسی (کوییز، پرسش و پاسخ، نکته ساده، نکته دانشگاهی و آموزشی) + عضویت در سامانه مرور هوشمند مخصوص این محصول + دریافت گواهی نامه

برای توضیحات بیشتر در مورد گواهی نامه و سامانه مرور هوشمند اینجا را کلیک کنید

700,000 تومان

VIP

دسترسی به فقط PDF زبان اصلی + کتاب های همراه فارسی (کوییز، پرسش و پاسخ، نکته ساده، نکته دانشگاهی و آموزشی) + دریافت گواهی نامه + دریافت پادکست‌های صوتی و ویدیوهای فارسی همراه این مجموعه

1,100,000 تومان

دسته: دسته-بندی-نشده, مقاله علمی برچسب: Computer Vision and Pattern Recognition, Machine Learning, چشم انداز رایانه و تشخیص الگوی, یادگیری ماشین

توضیحات
نظرات (0)

عنوان مقاله به انگلیسی	Improving OCR Quality in 19th Century Historical Documents Using a Combined Machine Learning Based Approach
عنوان مقاله به فارسی	مقاله بهبود کیفیت OCR در اسناد تاریخی قرن نوزدهم با استفاده از یک رویکرد مبتنی بر یادگیری ماشین ترکیبی
نویسندگان	David Fleischhacker, Wolfgang Goederle, Roman Kern
زبان مقاله	انگلیسی
فرمت مقاله:	PDF
تعداد صفحات	29
دسته بندی موضوعات	Computer Vision and Pattern Recognition,Machine Learning,چشم انداز رایانه و تشخیص الگوی , یادگیری ماشین ,
توضیحات	Submitted 15 January, 2024; originally announced January 2024. , Comments: 29 pages, 23 figures, 7 tables
توضیحات به فارسی	ارسال شده در 15 ژانویه 2024 ؛در ابتدا ژانویه 2024 اعلام شد ، نظرات: 29 صفحه ، 23 شکل ، 7 جدول

چکیده

This paper addresses a major challenge to historical research on the 19th century. Large quantities of sources have become digitally available for the first time, while extraction techniques are lagging behind. Therefore, we researched machine learning (ML) models to recognise and extract complex data structures in a high-value historical primary source, the Schematismus. It records every single person in the Habsburg civil service above a certain hierarchical level between 1702 and 1918 and documents the genesis of the central administration over two centuries. Its complex and intricate structure as well as its enormous size have so far made any more comprehensive analysis of the administrative and social structure of the later Habsburg Empire on the basis of this source impossible. We pursued two central objectives: Primarily, the improvement of the OCR quality, for which we considered an improved structure recognition to be essential; in the further course, it turned out that this also made the extraction of the data structure possible. We chose Faster R-CNN as base for the ML architecture for structure recognition. In order to obtain the required amount of training data quickly and economically, we synthesised Hof- und Staatsschematismus-style data, which we used to train our model. The model was then fine-tuned with a smaller set of manually annotated historical source data. We then used Tesseract-OCR, which was further optimised for the style of our documents, to complete the combined structure extraction and OCR process. Results show a significant decrease in the two standard parameters of OCR-performance, WER and CER (where lower values are better). Combined structure detection and fine-tuned OCR improved CER and WER values by remarkable 71.98 percent (CER) respectively 52.49 percent (WER).

چکیده به فارسی (ترجمه ماشینی)

در این مقاله به یک چالش بزرگ برای تحقیقات تاریخی در قرن نوزدهم می پردازیم.مقادیر زیادی از منابع برای اولین بار به صورت دیجیتالی در دسترس قرار گرفته اند ، در حالی که تکنیک های استخراج عقب مانده اند.بنابراین ، ما مدل های یادگیری ماشین (ML) را برای تشخیص و استخراج ساختار داده های پیچیده در یک منبع اولیه تاریخی با ارزش بالا ، شماتیسم تحقیق کردیم.این فرد تک شخص را در خدمات ملکی هابسبورگ بالاتر از سطح سلسله مراتبی خاص بین سالهای 1702 تا 1918 ثبت می کند و پیدایش دولت مرکزی را طی دو قرن مستند می کند.ساختار پیچیده و پیچیده آن و همچنین اندازه عظیم آن تاکنون تجزیه و تحلیل جامع تری از ساختار اداری و اجتماعی امپراتوری بعدی هابسبورگ بر اساس این منبع غیرممکن انجام داده است.ما دو هدف اصلی را دنبال کردیم: در درجه اول ، بهبود کیفیت OCR ، که برای آن ما یک ساختار بهبود یافته را ضروری دانستیم.در دوره بعدی ، معلوم شد که این امر همچنین باعث شده است که استخراج ساختار داده ممکن باشد.ما R-CNN سریعتر را به عنوان پایه برای معماری ML برای شناخت ساختار انتخاب کردیم.به منظور به دست آوردن مقدار مورد نیاز داده های آموزشی به سرعت و اقتصادی ، ما داده های Hof- und Staatsschematismus را که از آن برای آموزش مدل خود استفاده می کردیم ، سنتز کردیم.سپس این مدل با مجموعه ای کوچکتر از داده های منبع تاریخی حاشیه نویسی دستی تنظیم شد.ما سپس از Tesseract-OCR استفاده کردیم که بیشتر برای سبک اسناد ما بهینه سازی شد تا روند استخراج ساختار ترکیبی و فرآیند OCR را تکمیل کنیم.نتایج نشان می دهد که کاهش قابل توجهی در دو پارامتر استاندارد عملکرد OCR ، WER و CER (جایی که مقادیر پایین بهتر هستند) نشان می دهد.تشخیص ساختار ترکیبی و OCR با تنظیم دقیق مقادیر CER و WER را با 71.98 درصد قابل توجه (CER) به ترتیب 52.49 درصد (WER) بهبود بخشید.

📚 محتوای این محصول آموزشی (پکیج کامل)

علاوه بر مقاله اصلی انگلیسی که دریافت می کنید، برای یادگیری عمیق‌تر و تسلط کامل بر مباحث مجموعه‌ای از کتاب‌های آموزشی نیز ارائه می‌شود.

کتاب صدها نکته فارسی (خودمونی) – نسخه PDF — زبان ساده و کاربردی
مشاهده نمونه نسخه نکات ساده
کتاب صدها نکته رسمی فارسی – نسخه PDF — نگارش استاندارد و علمی
مشاهده نمونه نسخه نکات رسمی
کتاب صدها پرسش و پاسخ تشریحی – نسخه PDF
— هر سؤال همراه با پاسخ کامل برای درک عمیق مفاهیم
مشاهده نمونه نسخه پرسش و پاسخ
کتاب پرسش و پاسخ چهارگزینه‌ای – نسخه یادگیری سریع
— پاسخ‌ها بلافاصله بعد از سؤال برای مرور سریع
مشاهده نمونه نسخه کوییز سریع
کتاب پرسش و پاسخ چهارگزینه‌ای – نسخه خودآزمایی
— پاسخ‌ها در انتهای بخش‌ها برای سنجش واقعی یادگیری
مشاهده نمونه نسخه آزمونی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل ویدیوهای آموزشی، کتاب‌ها، تمرین‌ها و خودآزمایی.

ℹ️ نکات مهم هنگام خرید

این محصول به صورت فایل دانلودی کامل ارائه می‌شود.
توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های محصول همان جا برای شما ارسال گردد.)
اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “مقاله بهبود کیفیت OCR در اسناد تاریخی قرن نوزدهم با استفاده از یک رویکرد مبتنی بر یادگیری ماشین ترکیبی”

مقاله بهبود کیفیت OCR در اسناد تاریخی قرن نوزدهم با استفاده از یک رویکرد مبتنی بر یادگیری ماشین ترکیبی

انتخاب پلن

چکیده

چکیده به فارسی (ترجمه ماشینی)

📚 محتوای این محصول آموزشی (پکیج کامل)

ℹ️ نکات مهم هنگام خرید

نقد و بررسی‌ها

محصولات مرتبط

مقاله تأیید امضای دست نویس آفلاین: یک روش یادگیری انتقال و انتخاب ویژگی

مقاله 4D-ONIX: یک رویکرد یادگیری عمیق برای بازسازی فیلم های سه بعدی از تصاویر پرتونگاری (X-ray) پراکنده

مقاله همجوشی استریو چند طیفی برای بازسازی صحنه 3D hyperspectral

مقاله Voxceleb-ESP: آزمایش های اولیه که افراد مشهور اسپانیایی را از صدای آنها تشخیص می دهند