عنوان مقاله به انگلیسی | AdaTyper: Adaptive Semantic Column Type Detection |
عنوان مقاله به فارسی | مقاله AdaTyper: تشخیص نوع ستون معنایی تطبیقی |
نویسندگان | Madelon Hulsebos, Paul Groth, Çağatay Demiralp |
زبان مقاله | انگلیسی |
فرمت مقاله: | |
تعداد صفحات | 0 |
دسته بندی موضوعات | Databases,Computation and Language,Machine Learning,بانکهای اطلاعاتی , محاسبات و زبان , یادگیری ماشین , |
توضیحات | Submitted 22 November, 2023; originally announced November 2023. , Comments: Submitted to VLDB’24 |
توضیحات به فارسی | ارسال شده 22 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد. ، نظرات: ارسال شده به VLDB’24 |
چکیده
Understanding the semantics of relational tables is instrumental for automation in data exploration and preparation systems. A key source for understanding a table is the semantics of its columns. With the rise of deep learning, learned table representations are now available, which can be applied for semantic type detection and achieve good performance on benchmarks. Nevertheless, we observe a gap between this performance and its applicability in practice. In this paper, we propose AdaTyper to address one of the most critical deployment challenges: adaptation. AdaTyper uses weak-supervision to adapt a hybrid type predictor towards new semantic types and shifted data distributions at inference time, using minimal human feedback. The hybrid type predictor of AdaTyper combines rule-based methods and a light machine learning model for semantic column type detection. We evaluate the adaptation performance of AdaTyper on real-world database tables hand-annotated with semantic column types through crowdsourcing and find that the f1-score improves for new and existing types. AdaTyper approaches an average precision of 0.6 after only seeing 5 examples, significantly outperforming existing adaptation methods based on human-provided regular expressions or dictionaries.
چکیده به فارسی (ترجمه ماشینی)
دانستن معناشناسی جداول رابطه ای برای اتوماسیون در سیستم های اکتشاف و آماده سازی داده ها مؤثر است.منبع اصلی برای درک یک جدول ، معناشناسی ستون های آن است.با افزایش یادگیری عمیق ، نمایش های جدول آموخته شده اکنون در دسترس است ، که می تواند برای تشخیص نوع معنایی اعمال شود و عملکرد خوبی در معیارها داشته باشد.با این وجود ، ما شکاف بین این عملکرد و کاربرد آن در عمل مشاهده می کنیم.در این مقاله ، ما Adatyper را برای پرداختن به یکی از مهمترین چالش های استقرار: سازگاری پیشنهاد می کنیم.Adatyper از فشار ضعیف برای تطبیق یک پیش بینی کننده نوع ترکیبی به سمت انواع معنایی جدید و توزیع داده های تغییر یافته در زمان استنتاج ، با استفاده از حداقل بازخورد انسانی استفاده می کند.پیش بینی کننده نوع ترکیبی Adatyper روشهای مبتنی بر قانون و یک مدل یادگیری ماشین سبک برای تشخیص نوع ستون معنایی.ما عملکرد سازگاری Adatyper را در جداول پایگاه داده در دنیای واقعی ارزیابی می کنیم و با انواع ستون معنایی از طریق شلوغی جمع آوری می شود و می دانیم که نمره F1 برای انواع جدید و موجود بهبود می یابد.Adatyper پس از تنها 5 مثال ، به طور متوسط از 0.6 نزدیک می شود ، به طور قابل توجهی از روشهای سازگاری موجود بر اساس عبارات منظم یا فرهنگ لغت ارائه می شود.
توجه کنید این مقاله به زبان انگلیسی است. |
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|
نقد و بررسیها
هنوز بررسیای ثبت نشده است.