| عنوان مقاله به انگلیسی | Synthetic Data Distillation Enables the Extraction of Clinical Information at Scale |
| عنوان مقاله به فارسی | ترجمه فارسی مقاله تقطیر داده های مصنوعی استخراج اطلاعات بالینی را در مقیاس امکان پذیر می کند |
| نویسندگان | Elizabeth Geena Woo, ProfileMichael C. Burkhart, Emily Alsentzer, ProfileBrett K Beaulieu-Jones |
| فرمت مقاله انگلیسی | |
| زبان مقاله تحویلی | ترجمه فارسی |
| فرمت مقاله ترجمه شده | به صورت فایل ورد |
| نحوه تحویل ترجمه | دو تا سه روز پس از ثبت سفارش (به صورت فایل دانلودی) |
| تعداد صفحات | 28 |
| لینک دانلود رایگان مقاله انگلیسی | دانلود مقاله |
| دسته بندی موضوعات | Health Informatics انفورماتیک سلامتی |
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |
چکیده
Large-language models (LLMs) have shown promising potential for extracting information from clinical notes. Deploying these models at scale can be challenging due to high computational costs, regulatory constraints, and privacy concerns. To address these challenges, we used synthetic data distillation to fine-tune smaller, open-source LLMs that achieve performance similar to that of larger models, including the teacher model. These smaller models can be run on less expensive local hardware or at a vastly reduced cost in cloud deployments. In this study, we used Llama-3.1-70B-Instruct to generate synthetic training examples in the form of question-answer pairs along with supporting information and model-assigned difficulty scores. These synthetic examples were used to fine-tune the smaller Llama-3.1-8B-Instruct model. We evaluated the performance of these models on an annotated synthetic dataset resembling clinical trial criteria, the i2b2 2018 Clinical Trial Eligibility Challenge, and clinical notes reflecting the clinical trial for apixaban. The fine-tuned models outperformed the 8B-Instruct model on all tasks and in some cases even exceeded the performance of the larger 70B-Instruct model. This work demonstrates the potential of synthetic data distillation to enable more scalable and efficient clinical information extraction, which could be applied toward improving accuracy and efficiency of patient phenotyping and clinical-trial matching.
چکیده به فارسی (ترجمه ماشینی)
مدل های بزرگ به زبان (LLM) پتانسیل امیدوار کننده ای برای استخراج اطلاعات از نت های بالینی نشان داده اند.استفاده از این مدل ها در مقیاس به دلیل هزینه های محاسباتی بالا ، محدودیت های نظارتی و نگرانی های مربوط به حریم خصوصی می تواند چالش برانگیز باشد.برای پرداختن به این چالش ها ، ما از تقطیر داده های مصنوعی برای تنظیم دقیق LLM های کوچکتر و منبع باز استفاده کردیم که به عملکرد مشابه مدل های بزرگتر ، از جمله مدل معلم دست می یابند.این مدل های کوچکتر را می توان با سخت افزار محلی کم هزینه یا با هزینه بسیار کاهش یافته در استقرار ابر اجرا کرد.در این مطالعه ، ما از LLAMA-3.1-70B- برای تولید نمونه های آموزش مصنوعی در قالب جفت های پاسخ به همراه با اطلاعات پشتیبانی و نمرات دشواری با مدل استفاده کردیم.این نمونه های مصنوعی برای تنظیم دقیق مدل کوچکتر LLAMA-3.1-8B- استفاده شد.ما عملکرد این مدلها را در یک مجموعه داده مصنوعی حاشیه نویسی شبیه به معیارهای کارآزمایی بالینی ، چالش واجد شرایط بودن کارآزمایی بالینی I2B2 2018 و یادداشت های بالینی منعکس کننده کارآزمایی بالینی برای آپیکسان ارزیابی کردیم.مدل های تنظیم شده دقیق از مدل اعلامیه 8B در کلیه کارها فراتر رفته و در برخی موارد حتی از عملکرد مدل بزرگتر 70B فراتر رفته است.این کار پتانسیل تقطیر داده های مصنوعی را نشان می دهد تا استخراج اطلاعات بالینی مقیاس پذیر تر و کارآمدتر باشد ، که می تواند در جهت بهبود دقت و کارآیی فنوتیپ بیمار و تطبیق کلینیکی استفاده شود.
| فرمت ارائه ترجمه مقاله | تحویل به صورت فایل ورد |
| زمان تحویل ترجمه مقاله | بین 2 تا 3 روز پس از ثبت سفارش |
| کیفیت ترجمه | بسیار بالا. مقاله فقط توسط مترجمین با مدرک دانشگاهی مترجمی ترجمه میشود. |
| جداول و فرمول ها | کلیه جداول و فرمول ها نیز در فایل تحویلی ورد درج میشوند. |


نقد و بررسیها
هنوز بررسیای ثبت نشده است.