| عنوان مقاله به انگلیسی | Generating Synthetic Free-text Medical Records with Low Re-identification Risk using Masked Language Modeling | ||||||||
| عنوان مقاله به فارسی | ترجمه فارسی مقاله ایجاد سوابق پزشکی مصنوعی با متن آزاد با خطر شناسایی مجدد کم با استفاده از مدلسازی زبان نقابدار | ||||||||
| نویسندگان | Samuel Belkadi, Libo Ren, Nicolo Micheletti, Lifeng Han, Goran Nenadic | ||||||||
| فرمت مقاله انگلیسی | |||||||||
| زبان مقاله تحویلی | ترجمه فارسی | ||||||||
| فرمت مقاله ترجمه شده | به صورت فایل ورد | ||||||||
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) | ||||||||
| تعداد صفحات | 10 | ||||||||
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله | ||||||||
| دسته بندی موضوعات | Computation and Language,Machine Learning,محاسبه و زبان , یادگیری ماشین , | ||||||||
| توضیحات | Submitted 17 September, 2024; v1 submitted 15 September, 2024; originally announced September 2024. , Comments: Added references and rephrased some sentences | ||||||||
| توضیحات به فارسی | ارسال شده 17 سپتامبر 2024 ؛V1 ارسال شده در 15 سپتامبر 2024 ؛در ابتدا در سپتامبر 2024 اعلام شد. ، نظرات: منابع اضافه شده و برخی از جملات | ||||||||
| اطلاعات بیشتر از این مقاله در پایگاه های علمی |
INSPIRE HEP NASA ADS Google Scholar Semantic Scholar فرمت ارائه ترجمه مقاله |
تحویل به صورت فایل ورد |
زمان تحویل ترجمه مقاله |
بین 2 تا 3 روز پس از ثبت سفارش |
کیفیت ترجمه |
بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
جداول و فرمول ها |
کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
|
چکیده
In this paper, we present a system that generates synthetic free-text medical records, such as discharge summaries, admission notes and doctor correspondences, using Masked Language Modeling (MLM). Our system is designed to preserve the critical information of the records while introducing significant diversity and minimizing re-identification risk. The system incorporates a de-identification component that uses Philter to mask Protected Health Information (PHI), followed by a Medical Entity Recognition (NER) model to retain key medical information. We explore various masking ratios and mask-filling techniques to balance the trade-off between diversity and fidelity in the synthetic outputs without affecting overall readability. Our results demonstrate that the system can produce high-quality synthetic data with significant diversity while achieving a HIPAA-compliant PHI recall rate of 0.96 and a low re-identification risk of 0.035. Furthermore, downstream evaluations using a NER task reveal that the synthetic data can be effectively used to train models with performance comparable to those trained on real data. The flexibility of the system allows it to be adapted for specific use cases, making it a valuable tool for privacy-preserving data generation in medical research and healthcare applications.
چکیده به فارسی (ترجمه ماشینی)
در این مقاله ، ما سیستمی را ارائه می دهیم که سوابق پزشکی متنی مصنوعی مانند خلاصه تخلیه ، یادداشت های پذیرش و مکاتبات پزشک را با استفاده از مدل سازی زبان ماسک (MLM) تولید می کند.سیستم ما برای حفظ اطلاعات مهم سوابق ضمن معرفی تنوع قابل توجهی و به حداقل رساندن خطر شناسایی مجدد طراحی شده است.این سیستم شامل یک مؤلفه تشخیصی است که از Philter برای ماسک اطلاعات بهداشتی محافظت شده (PHI) استفاده می کند ، و پس از آن یک مدل شناخت نهاد پزشکی (NER) برای حفظ اطلاعات کلیدی پزشکی.ما نسبت های مختلف ماسک و تکنیک های پر کردن ماسک را بررسی می کنیم تا تجارت بین تنوع و وفاداری در خروجی های مصنوعی را تعادل برقرار کنیم بدون اینکه بر خوانایی کلی تأثیر بگذارد.نتایج ما نشان می دهد که این سیستم می تواند داده های مصنوعی با کیفیت بالا و با تنوع قابل توجهی در حالی که دستیابی به میزان فراخوان PHI سازگار با HIPAA از 0.96 و خطر شناسایی مجدد کم از 0.035 تولید می کند.علاوه بر این ، ارزیابی های پایین دست با استفاده از یک کار NER نشان می دهد که از داده های مصنوعی می توان به طور موثری برای آموزش مدل ها با عملکرد قابل مقایسه با آنهایی که در داده های واقعی آموزش دیده اند ، استفاده شود.انعطاف پذیری سیستم اجازه می دهد تا برای موارد استفاده خاص سازگار شود ، و آن را به ابزاری ارزشمند برای حفظ حریم خصوصی در تولید داده ها در تحقیقات پزشکی و برنامه های مراقبت های بهداشتی تبدیل می کند.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.