| عنوان مقاله به انگلیسی | Vision-Language Model Based Handwriting Verification |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله تأیید دستخط مبتنی بر مدل بینایی-زبان |
| نویسندگان | Mihir Chauhan, Abhishek Satbhai, Mohammad Abuzar Hashemi, Mir Basheer Ali, Bina Ramamurthy, Mingchen Gao, Siwei Lyu, Sargur Srihari |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 4 |
| دسته بندی موضوعات | Computer Vision and Pattern Recognition,Artificial Intelligence,Computation and Language,Machine Learning,چشم انداز رایانه و تشخیص الگوی , هوش مصنوعی , محاسبات و زبان , یادگیری ماشین , |
| توضیحات | Submitted 31 July, 2024; originally announced July 2024. , Comments: 4 Pages, 1 Figure, 1 Table, Accepted as Short paper at Irish Machine Vision and Image Processing (IMVIP) Conference |
| توضیحات به فارسی | ارسال 31 ژوئیه 2024 ؛در ابتدا ژوئیه 2024 اعلام شد ، نظرات: 4 صفحه ، 1 شکل ، 1 جدول ، به عنوان مقاله کوتاه در کنفرانس دستگاه دیدنی و پردازش تصویر ایرلندی (IMVIP) پذیرفته شده است |
توضیحات گزینههای خرید
دانلود مقاله اصل انگلیسی
با انتخاب این گزینه، میتوانید فایل PDF مقاله اصلی را به زبان انگلیسی دانلود کنید.
قیمت: 19,000 تومان
دانلود مقاله اصل انگلیسی + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 99,000 تومان
سفارش ترجمه فارسی مقاله + خلاصه دو صفحه ای مقاله + پادکست صوتی فارسی خلاصه مقاله
با انتخاب این گزینه، علاوه بر دریافت مقاله اصلی و ترجمه کامل آن، یک خلاصه دو صفحهای فارسی و پادکست صوتی فارسی خلاصه مقاله را نیز دریافت خواهید کرد.
قیمت: 160,000 تومان
زمان تحویل: 2 تا 3 روز کاری
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Handwriting Verification is a critical in document forensics. Deep learning based approaches often face skepticism from forensic document examiners due to their lack of explainability and reliance on extensive training data and handcrafted features. This paper explores using Vision Language Models (VLMs), such as OpenAI’s GPT-4o and Google’s PaliGemma, to address these challenges. By leveraging their Visual Question Answering capabilities and 0-shot Chain-of-Thought (CoT) reasoning, our goal is to provide clear, human-understandable explanations for model decisions. Our experiments on the CEDAR handwriting dataset demonstrate that VLMs offer enhanced interpretability, reduce the need for large training datasets, and adapt better to diverse handwriting styles. However, results show that the CNN-based ResNet-18 architecture outperforms the 0-shot CoT prompt engineering approach with GPT-4o (Accuracy: 70%) and supervised fine-tuned PaliGemma (Accuracy: 71%), achieving an accuracy of 84% on the CEDAR AND dataset. These findings highlight the potential of VLMs in generating human-interpretable decisions while underscoring the need for further advancements to match the performance of specialized deep learning models.
چکیده به فارسی (ترجمه ماشینی)
تأیید دست نوشته در پزشکی قانونی اسناد بسیار مهم است.رویکردهای مبتنی بر یادگیری عمیق به دلیل عدم توضیح و اعتماد به داده های آموزش گسترده و ویژگی های دست ساز ، اغلب با شک و تردید از آزمایش کنندگان اسناد پزشکی قانونی روبرو هستند.در این مقاله با استفاده از مدل های زبان بینایی (VLMS) ، مانند GPT-4O OpenAI و Paligemma Google ، برای پرداختن به این چالش ها بررسی شده است.با استفاده از سؤال بصری آنها به قابلیت های پاسخگویی و استدلال 0-Shot Chain-of-Thought (COT) ، هدف ما ارائه توضیحات واضح و قابل درک انسانی برای تصمیمات مدل است.آزمایشات ما در مورد مجموعه داده های دست نویس Cedar نشان می دهد که VLM ها تفسیر پیشرفته را ارائه می دهند ، نیاز به مجموعه داده های آموزشی بزرگ را کاهش می دهند و بهتر با سبک های دست نویس متنوع سازگار می شوند.با این حال ، نتایج نشان می دهد که معماری RESNET-18 مبتنی بر CNN از رویکرد مهندسی سریع COT با GPT-4O (دقت: 70 ٪) بهتر عمل می کند و پالیگمما تنظیم شده با نظارت (دقت: 71 ٪) ، دستیابی به دقت 84٪ در سرو و مجموعه داده.این یافته ها پتانسیل VLM ها را در تولید تصمیمات قابل تفسیر انسان برجسته می کند و در عین حال تأکید بر لزوم پیشرفت های بیشتر برای مطابقت با عملکرد مدلهای یادگیری عمیق تخصصی است.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.