| عنوان مقاله به انگلیسی | Towards Explainable Automated Data Quality Enhancement without Domain Knowledge | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله به سوی افزایش کیفیت داده خودکار قابل توضیح بدون دانش دامنه | ||||||||
| نویسندگان | Djibril Sarr | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 27 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Databases,Artificial Intelligence,Machine Learning,بانکهای اطلاعاتی , هوش مصنوعی , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 16 September, 2024; originally announced September 2024. , MSC Class: 62H30; 68P99 ACM Class: H.2.7; H.2.8; I.2.1 | ||||||||
| توضیحات به فارسی | ارائه شده 16 سپتامبر 2024 ؛در ابتدا در سپتامبر 2024 اعلام شد. ، کلاس MSC: 62H30 ؛کلاس 68p99 ACM: H.2.7 ؛H.2.8 ؛I.2.1 | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
In the era of big data, ensuring the quality of datasets has become increasingly crucial across various domains. We propose a comprehensive framework designed to automatically assess and rectify data quality issues in any given dataset, regardless of its specific content, focusing on both textual and numerical data. Our primary objective is to address three fundamental types of defects: absence, redundancy, and incoherence. At the heart of our approach lies a rigorous demand for both explainability and interpretability, ensuring that the rationale behind the identification and correction of data anomalies is transparent and understandable. To achieve this, we adopt a hybrid approach that integrates statistical methods with machine learning algorithms. Indeed, by leveraging statistical techniques alongside machine learning, we strike a balance between accuracy and explainability, enabling users to trust and comprehend the assessment process. Acknowledging the challenges associated with automating the data quality assessment process, particularly in terms of time efficiency and accuracy, we adopt a pragmatic strategy, employing resource-intensive algorithms only when necessary, while favoring simpler, more efficient solutions whenever possible. Through a practical analysis conducted on a publicly provided dataset, we illustrate the challenges that arise when trying to enhance data quality while keeping explainability. We demonstrate the effectiveness of our approach in detecting and rectifying missing values, duplicates and typographical errors as well as the challenges remaining to be addressed to achieve similar accuracy on statistical outliers and logic errors under the constraints set in our work.
چکیده به فارسی (ترجمه ماشینی)
در عصر داده های بزرگ ، اطمینان از کیفیت مجموعه داده ها به طور فزاینده ای در حوزه های مختلف بسیار مهم شده است.ما یک چارچوب جامع را پیشنهاد می کنیم تا به طور خودکار مسائل مربوط به کیفیت داده ها را در هر مجموعه داده داده شده ، صرف نظر از محتوای خاص آن ، با تمرکز بر روی داده های متنی و عددی ، ارزیابی و اصلاح کند.هدف اصلی ما پرداختن به سه نوع اساسی نقص است: غیبت ، افزونگی و عدم انسجام.در قلب رویکرد ما تقاضای جدی برای توضیح و تفسیر قرار دارد ، و اطمینان از این که دلیل منطقی شناسایی و تصحیح ناهنجاری های داده شفاف و قابل درک است.برای دستیابی به این هدف ، ما یک رویکرد ترکیبی را اتخاذ می کنیم که روشهای آماری را با الگوریتم های یادگیری ماشین ادغام می کند.در واقع ، با استفاده از تکنیک های آماری در کنار یادگیری ماشین ، ما تعادل بین دقت و توضیح را ایجاد می کنیم و کاربران را قادر می سازیم تا روند ارزیابی را اعتماد و درک کنند.با تأیید چالش های مرتبط با اتوماسیون فرایند ارزیابی کیفیت داده ها ، به ویژه از نظر کارایی و صحت زمان ، ما یک استراتژی عملی را اتخاذ می کنیم و از الگوریتم های فشرده منابع فقط در صورت لزوم استفاده می کنیم ، در حالی که در هر زمان ممکن از راه حل های ساده تر و کارآمدتر استفاده می کنیم.از طریق یک تجزیه و تحلیل عملی که بر روی یک مجموعه داده عمومی انجام شده است ، ما چالش هایی را که هنگام تلاش برای افزایش کیفیت داده ها در حالی که توضیح می دهند ، نشان می دهیم.ما اثربخشی رویکرد خود را در تشخیص و اصلاح مقادیر گمشده ، کپی ها و خطاهای تایپوگرافی و همچنین چالش های باقی مانده برای دستیابی به دقت مشابه در مسافت های آماری و خطاهای منطقی تحت محدودیت های تعیین شده در کار ما نشان می دهیم.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.