عنوان مقاله به انگلیسی | The Effect of Intrinsic Dataset Properties on Generalization: Unraveling Learning Differences Between Natural and Medical Images |
عنوان مقاله به فارسی | مقاله تأثیر خواص مجموعه داده های ذاتی بر تعمیم: پرده برداری از تفاوتهای یادگیری بین تصاویر طبیعی و پزشکی |
نویسندگان | Nicholas Konz, Maciej A. Mazurowski |
زبان مقاله | انگلیسی |
فرمت مقاله: | |
تعداد صفحات | 31 |
دسته بندی موضوعات | Computer Vision and Pattern Recognition,Machine Learning,Image and Video Processing,Machine Learning,چشم انداز رایانه و تشخیص الگوی , یادگیری ماشین , پردازش تصویر و فیلم , یادگیری ماشین , |
توضیحات | Submitted 16 January, 2024; originally announced January 2024. , Comments: ICLR 2024. Code: https://github.com/mazurowski-lab/intrinsic-properties |
توضیحات به فارسی | 16 ژانویه 2024 ارسال شد.در ابتدا ژانویه 2024 اعلام شد ، نظرات: ICLR 2024. کد: https://github.com/mazurowski-lab/intrinsic-properties |
چکیده
This paper investigates discrepancies in how neural networks learn from different imaging domains, which are commonly overlooked when adopting computer vision techniques from the domain of natural images to other specialized domains such as medical images. Recent works have found that the generalization error of a trained network typically increases with the intrinsic dimension ($d_{data}$) of its training set. Yet, the steepness of this relationship varies significantly between medical (radiological) and natural imaging domains, with no existing theoretical explanation. We address this gap in knowledge by establishing and empirically validating a generalization scaling law with respect to $d_{data}$, and propose that the substantial scaling discrepancy between the two considered domains may be at least partially attributed to the higher intrinsic “label sharpness” ($K_F$) of medical imaging datasets, a metric which we propose. Next, we demonstrate an additional benefit of measuring the label sharpness of a training set: it is negatively correlated with the trained model’s adversarial robustness, which notably leads to models for medical images having a substantially higher vulnerability to adversarial attack. Finally, we extend our $d_{data}$ formalism to the related metric of learned representation intrinsic dimension ($d_{repr}$), derive a generalization scaling law with respect to $d_{repr}$, and show that $d_{data}$ serves as an upper bound for $d_{repr}$. Our theoretical results are supported by thorough experiments with six models and eleven natural and medical imaging datasets over a range of training set sizes. Our findings offer insights into the influence of intrinsic dataset properties on generalization, representation learning, and robustness in deep neural networks.
چکیده به فارسی (ترجمه ماشینی)
در این مقاله اختلافات در نحوه یادگیری شبکه های عصبی از حوزه های مختلف تصویربرداری ، که معمولاً هنگام اتخاذ تکنیک های بینایی رایانه ای از حوزه تصاویر طبیعی به سایر حوزه های تخصصی مانند تصاویر پزشکی مورد غفلت قرار می گیرند ، بررسی شده است.آثار اخیر نشان داده اند که خطای تعمیم یک شبکه آموزش دیده به طور معمول با ابعاد ذاتی ($ d_ {data} $) مجموعه آموزش آن افزایش می یابد.با این حال ، تند بودن این رابطه بین حوزه های پزشکی (رادیولوژیکی) و تصویربرداری طبیعی متفاوت است ، بدون توضیح نظری موجود.ما با ایجاد و تأیید تجربی قانون مقیاس گذاری عمومی با توجه به $ d_ {data} $ ، به این شکاف در دانش می پردازیم و پیشنهاد می کنیم که اختلاف مقیاس قابل توجهی بین دو حوزه در نظر گرفته شده حداقل ممکن است تا حدی به وضوح برچسب ذاتی بالاتر نسبت داده شود “”($ k_f $) مجموعه داده های تصویربرداری پزشکی ، متریک که ما پیشنهاد می کنیم.در مرحله بعد ، ما یک مزیت اضافی برای اندازه گیری وضوح برچسب یک مجموعه تمرینی نشان می دهیم: این با استحکام مخالف مدل آموزش دیده منفی است ، که به ویژه منجر به مدل هایی برای تصاویر پزشکی می شود که دارای آسیب پذیری قابل توجهی بالاتر در برابر حمله دشمن هستند.سرانجام ، ما $ d_ {data} $ را به متریک مربوط به نمایندگی آموخته شده ابعاد ذاتی ($ d_ {repr} $) گسترش می دهیم ، یک قانون مقیاس بندی عمومی را با توجه به $ d_ {repr} $ نشان می دهیم ، و نشان می دهد که $ d_{داده} $ به عنوان یک محدوده بالا برای $ d_ {repr} $ خدمت می کند.نتایج نظری ما با آزمایش های کامل با شش مدل و یازده مجموعه داده تصویربرداری طبیعی و پزشکی در طیف وسیعی از اندازه های مجموعه آموزش پشتیبانی می شود.یافته های ما بینش هایی در مورد تأثیر ویژگی های مجموعه داده های ذاتی در تعمیم ، یادگیری بازنمایی و استحکام در شبکه های عصبی عمیق ارائه می دهد.
توجه کنید این مقاله به زبان انگلیسی است. |
برای سفارش ترجمه این مقاله می توانید به یکی از روش های تماس، پیامک، تلگرام و یا واتس اپ با شماره زیر تماس بگیرید:
09395106248 توجه کنید که شرایط ترجمه به صورت زیر است:
|
نقد و بررسیها
هنوز بررسیای ثبت نشده است.