عنوان مقاله به انگلیسی | Comparative Analysis of Transformers for Modeling Tabular Data: A Casestudy using Industry Scale Dataset |
عنوان مقاله به فارسی | مقاله تجزیه و تحلیل مقایسه ای ترانسفورماتورها برای مدل سازی داده های جدولی: یک نمونه موردی با استفاده از مجموعه داده های مقیاس صنعت |
نویسندگان | Usneek Singh, Piyush Arora, Shamika Ganesan, Mohit Kumar, Siddhant Kulkarni, Salil R. Joshi |
زبان مقاله | انگلیسی |
فرمت مقاله: | |
تعداد صفحات | 7 |
دسته بندی موضوعات | Machine Learning,Artificial Intelligence,یادگیری ماشین , هوش مصنوعی , |
توضیحات | Submitted 24 November, 2023; originally announced November 2023. , Comments: Accepted at 7th Joint International Conference on Data Science & Management of Data (11th ACMIKDD CODS and 29th COMAD) |
توضیحات به فارسی | ارسال شده 24 نوامبر 2023 ؛در ابتدا نوامبر 2023 اعلام شد. ، نظرات: در هفتمین کنفرانس مشترک بین المللی علوم داده و مدیریت داده ها (یازدهمین کدهای ACMIKDD و 29th COMAD) پذیرفته شده است |
چکیده
We perform a comparative analysis of transformer-based models designed for modeling tabular data, specifically on an industry-scale dataset. While earlier studies demonstrated promising outcomes on smaller public or synthetic datasets, the effectiveness did not extend to larger industry-scale datasets. The challenges identified include handling high-dimensional data, the necessity for efficient pre-processing of categorical and numerical features, and addressing substantial computational requirements. To overcome the identified challenges, the study conducts an extensive examination of various transformer-based models using both synthetic datasets and the default prediction Kaggle dataset (2022) from American Express. The paper presents crucial insights into optimal data pre-processing, compares pre-training and direct supervised learning methods, discusses strategies for managing categorical and numerical features, and highlights trade-offs between computational resources and performance. Focusing on temporal financial data modeling, the research aims to facilitate the systematic development and deployment of transformer-based models in real-world scenarios, emphasizing scalability.
چکیده به فارسی (ترجمه ماشینی)
ما یک تجزیه و تحلیل مقایسه ای از مدل های مبتنی بر ترانسفورماتور که برای مدل سازی داده های جدولی ، به طور خاص در یک مجموعه داده در مقیاس صنعت طراحی شده اند ، انجام می دهیم.در حالی که مطالعات قبلی نتایج امیدوارکننده ای را در مجموعه داده های عمومی یا مصنوعی کوچکتر نشان می داد ، اثربخشی به مجموعه داده های در مقیاس صنعت بزرگتر نمی شود.چالش های مشخص شده شامل رسیدگی به داده های با ابعاد بالا ، ضرورت پیش پردازش کارآمد از ویژگی های طبقه بندی و عددی و پرداختن به الزامات محاسباتی قابل توجهی است.برای غلبه بر چالش های مشخص شده ، این مطالعه بررسی گسترده ای از مدل های مختلف مبتنی بر ترانسفورماتور را با استفاده از مجموعه داده های مصنوعی و پیش بینی پیش فرض Kaggle Dataset (2022) از American Express انجام می دهد.در این مقاله بینش های اساسی در مورد پیش پردازش داده های بهینه ارائه شده است ، روشهای یادگیری پیش از آموزش و مستقیم را با هم مقایسه می کند ، در مورد استراتژی های مدیریت ویژگی های طبقه بندی و عددی بحث می کند و تجارت بین منابع محاسباتی و عملکرد را برجسته می کند.با تمرکز بر مدل سازی داده های مالی زمانی ، این تحقیق با هدف تسهیل توسعه سیستماتیک و استقرار مدل های مبتنی بر ترانسفورماتور در سناریوهای دنیای واقعی ، با تأکید بر مقیاس پذیری انجام می شود.
توجه کنید این مقاله به زبان انگلیسی است. |
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|
نقد و بررسیها
هنوز بررسیای ثبت نشده است.