📚 مقاله علمی
| عنوان فارسی مقاله | چارچوب توسعه پردازش زبان طبیعی متنباز برای تحقیقات بالینی مبتنی بر EHR: نمایش موردی با استفاده از N3C |
|---|---|
| نویسندگان | Sijia Liu, Andrew Wen, Liwei Wang, Huan He, Sunyang Fu, Robert Miller, Andrew Williams, Daniel Harris, Ramakanth Kavuluru, Mei Liu, Noor Abu-el-rub, Dalton Schutte, Rui Zhang, Masoud Rouhizadeh, John D. Osborne, Yongqun He, Umit Topaloglu, Stephanie S Hong, Joel H Saltz, Thomas Schaffter, Emily Pfaff, Christopher G. Chute, Tim Duong, Melissa A. Haendel, Rafael Fuentes |
| دستهبندی علمی | Computation and Language,Information Retrieval |
📘 محتوای این مقاله آموزشی
- شامل فایل اصلی مقاله (PDF انگلیسی)
- به همراه فایل PDF توضیح فارسی با بیان ساده و روان
- دارای پادکست صوتی فارسی توضیح کامل مقاله
- به همراه ویدیو آموزشی فارسی برای درک عمیقتر مفاهیم مقاله
🎯 همهی فایلها با هدف درک آسان و سریع مفاهیم علمی این مقاله تهیه شدهاند.
چنانچه در دانلود فایلها با مشکلی مواجه شدید، لطفاً از طریق واتساپ با شماره 09395106248 یا از طریق آیدی تلگرام @ma_limbs پیام دهید تا لینکها فوراً برایتان مجدداً ارسال شوند.
چارچوب توسعه پردازش زبان طبیعی متنباز برای تحقیقات بالینی مبتنی بر EHR
۱. معرفی مقاله و اهمیت آن
در عصر حاضر، دادههای عظیم الکترونیکی سلامت (EHR) پتانسیل بینظیری برای پیشبرد تحقیقات بالینی ارائه میدهند. با این حال، استخراج اطلاعات معنادار از یادداشتهای بالینی که عمدتاً به صورت متن غیرساختاریافته هستند، یک چالش بزرگ محسوب میشود. پردازش زبان طبیعی (NLP) ابزاری قدرتمند برای غلبه بر این چالش است، اما پذیرش آن در جامعه تحقیقات بالینی و ترجمهای با مقاومتهایی روبرو بوده است.
مقاومت در برابر پذیرش مدلهای NLP در محیطهای بالینی عمدتاً ناشی از سه عامل کلیدی است: محدودیت در شفافیت (Transparency)، قابلیت تفسیر (Interpretability) و قابلیت استفاده (Usability). محققان بالینی نیاز دارند که نه تنها به نتایج مدلها اعتماد کنند، بلکه بتوانند فرآیندهای پشت آن نتایج را درک کرده و در صورت لزوم، آنها را تنظیم یا بهبود بخشند.
مقاله حاضر با عنوان “چارچوب توسعه پردازش زبان طبیعی متنباز برای تحقیقات بالینی مبتنی بر EHR: نمایش موردی با استفاده از N3C” به ارائه یک راه حل جامع برای این چالشها میپردازد. این پژوهش یک چارچوب توسعه پردازش زبان طبیعی متنباز را پیشنهاد میکند که با هدف افزایش شفافیت، قابلیت تفسیر و سهولت استفاده طراحی شده است. اهمیت این چارچوب در توانایی آن برای فعالسازی تحقیقات بالینی گستردهتر، به ویژه در مطالعات چند موسسهای، و همچنین فراهم آوردن بستری برای ارزیابی و مقایسه الگوریتمهای NLP در مقیاس وسیع نهفته است.
به طور خاص، این مقاله نشان میدهد که چگونه میتوان از این چارچوب برای استخراج اطلاعات مرتبط با COVID-19 از یادداشتهای بالینی استفاده کرد. با وجود تمرکز بر COVID-19 به عنوان یک مورد مطالعاتی، معماری چارچوب به گونهای است که میتوان آن را به سایر حوزههای مورد علاقه در NLP بالینی نیز تعمیم داد و بدین ترتیب، پتانسیل گستردهای برای آینده تحقیقات پزشکی فراهم میآورد.
۲. نویسندگان و زمینه تحقیق
این پژوهش حاصل تلاشی مشترک از سوی گروهی از محققان برجسته در حوزههای پردازش زبان طبیعی، انفورماتیک بالینی و پزشکی است. لیست نویسندگان شامل: Sijia Liu, Andrew Wen, Liwei Wang, Huan He, Sunyang Fu, Robert Miller, Andrew Williams, Daniel Harris, Ramakanth Kavuluru, Mei Liu, Noor Abu-el-rub, Dalton Schutte, Rui Zhang, Masoud Rouhizadeh, John D. Osborne, Yongqun He, Umit Topaloglu, Stephanie S Hong, Joel H Saltz, Thomas Schaffter, Emily Pfaff, Christopher G. Chute, Tim Duong, Melissa A. Haendel, Rafael Fuentes میباشد.
این تیم تحقیقاتی، بخشی از گروه فرعی NLP کنسرسیوم ملی کووید (N3C) هستند. N3C (National COVID Cohort Collaborative) یک ابتکار ملی در ایالات متحده است که با هدف جمعآوری، استانداردسازی و تحلیل دادههای بالینی بیماران مبتلا به COVID-19 از مؤسسات مختلف پزشکی راهاندازی شده است. هدف اصلی N3C تسهیل تحقیقات سریع و جامع در مورد COVID-19 و ارائه بینشهای جدید برای درک بهتر بیماری و توسعه روشهای درمانی است.
زمینه اصلی این تحقیق، پردازش زبان طبیعی بالینی (Clinical NLP) است که بر توسعه و کاربرد الگوریتمها و مدلهای NLP برای تحلیل دادههای متنی موجود در پروندههای الکترونیکی سلامت (EHR) تمرکز دارد. این حوزه از اهمیت حیاتی برخوردار است زیرا بخش قابل توجهی از اطلاعات بالینی ارزشمند، از جمله علائم، تشخیصها، نتایج آزمایشها و طرحهای درمانی، در قالب یادداشتهای متنی توسط پزشکان و کادر درمانی ثبت میشود. توانایی استخراج دقیق و کارآمد این اطلاعات میتواند به بهبود تصمیمگیری بالینی، کشف دانش جدید، و پیشبرد تحقیقات پزشکی کمک شایانی کند.
این مقاله به ویژه به بررسی چگونگی استفاده از NLP در مقیاس چند موسسهای میپردازد، جایی که مسائل مربوط به حریم خصوصی دادهها، تفاوت در شیوههای ثبت سوابق و تنوع در زبان بالینی، چالشهای پیچیدهای را ایجاد میکنند. چارچوب پیشنهادی به دنبال غلبه بر این موانع و ایجاد یک محیط همکاری استاندارد برای توسعه و ارزیابی راهحلهای NLP بالینی است.
۳. چکیده و خلاصه محتوا
با وجود پیشرفتهای چشمگیر در پردازش زبان طبیعی بالینی (NLP)، جامعه تحقیقاتی بالینی و ترجمهای هنوز در پذیرش گسترده مدلهای NLP تردید دارد. این تردید عمدتاً به دلیل محدودیتهایی در شفافیت، قابلیت تفسیر و قابلیت استفاده از این مدلهاست. برای حل این مشکل، مطالعه حاضر یک چارچوب توسعه پردازش زبان طبیعی متنباز را معرفی میکند که به طور خاص برای تحقیقات بالینی مبتنی بر پروندههای الکترونیکی سلامت (EHR) طراحی شده است.
ارزیابی این چارچوب از طریق پیادهسازی الگوریتمهای NLP برای کنسرسیوم ملی کووید (N3C) انجام شد. با توجه به علاقه فزاینده به استخراج اطلاعات از یادداشتهای بالینی مرتبط با COVID-19، کار انجام شده در این پژوهش شامل سه مؤلفه اصلی است:
- ۱. فرآیند حاشیهنویسی دادههای باز: این فرآیند از علائم و نشانههای COVID-19 به عنوان مورد استفاده بهره میبرد. هدف این بخش، ایجاد مجموعه دادههای حاشیهنویسیشده با کیفیت بالا (Gold Standard) است که برای آموزش و ارزیابی مدلهای NLP ضروری هستند و به صورت باز در دسترس جامعه قرار میگیرند.
- ۲. پلتفرم ترکیب قواعد مبتنی بر جامعه: این پلتفرم امکان توسعه و اشتراکگذاری مجموعهای از قواعد استخراج اطلاعات را توسط جامعه محققین فراهم میکند. این رویکرد تعاونی به افزایش شفافیت و قابلیت تفسیر مدلها کمک شایانی میکند، زیرا قواعد به صورت صریح تعریف شده و قابل بازبینی هستند.
- ۳. جریان کاری تولید دادههای متنی ترکیبی (Synthetic Text Data Generation): این جریان کاری برای تولید متون مصنوعی جهت انجام وظایف استخراج اطلاعات، بدون نیاز به دخالت سوژههای انسانی یا دسترسی مستقیم به دادههای حساس بیماران، طراحی شده است. این نوآوری به حل چالشهای حریم خصوصی و دسترسی به دادهها در تحقیقات بالینی کمک شایانی میکند.
متون مورد استفاده در این پژوهش از سه موسسه مختلف – مایو کلینیک (Mayo Clinic)، دانشگاه کنتاکی (University of Kentucky) و دانشگاه مینهسوتا (University of Minnesota) – جمعآوری شدهاند. حاشیهنویسیهای استاندارد طلایی با استفاده از مجموعهقواعد یک موسسه (مایو) آزمایش شدند. نتایج به دست آمده در معیار F-score به ترتیب 0.876 برای مجموعه دادههای آزمایشی مایو، 0.706 برای مینهسوتا و 0.694 برای کنتاکی بود.
این مطالعه، به عنوان یک تلاش مشترک از سوی زیرگروه NLP کنسرسیوم N3C، امکانسنجی ایجاد یک پلتفرم توسعه و ارزیابی الگوریتمهای NLP فدرال را نشان میدهد. این پلتفرم قادر است مطالعات NLP بالینی چند موسسهای را ارتقاء داده و پذیرش آنها را افزایش دهد. با وجود استفاده از COVID-19 به عنوان یک مورد مطالعاتی، چارچوب ارائه شده به اندازهای عمومی است که میتواند در سایر حوزههای مورد علاقه در NLP بالینی نیز به کار گرفته شود، که نشاندهنده انعطافپذیری و قابلیت تعمیم آن است.
۴. روششناسی تحقیق
روششناسی پژوهش حاضر بر پایهی توسعه و ارزیابی یک چارچوب جامع برای NLP بالینی است که سه مؤلفه اصلی را در بر میگیرد. این رویکرد به منظور مقابله با چالشهای شفافیت، قابلیت تفسیر و قابلیت استفاده در مدلهای NLP بالینی طراحی شده است.
۱. فرآیند حاشیهنویسی دادههای باز (Open Data Annotation Process)
- مورد استفاده: این فرآیند بر روی علائم و نشانههای COVID-19 متمرکز بود. محققان به دنبال شناسایی و برچسبگذاری دقیق این اطلاعات در یادداشتهای بالینی بودند.
- هدف: ایجاد مجموعه دادههای “استاندارد طلایی” (Gold Standard) که شامل نمونههای متنی با حاشیهنویسی دقیق توسط متخصصین انسانی هستند. این مجموعه دادهها برای آموزش و ارزیابی الگوریتمهای NLP ضروری هستند. ماهیت “باز” این فرآیند به معنای قابلیت اشتراکگذاری و بازبینی این حاشیهنویسیها توسط جامعه محققین است که به افزایش اعتماد و شفافیت کمک میکند.
- ابزارها و تکنیکها: استفاده از پلتفرمهای حاشیهنویسی استاندارد و پروتکلهای دقیق برای اطمینان از سازگاری و دقت حاشیهنویسیها در میان حاشیهنویسان مختلف.
۲. پلتفرم ترکیب قواعد مبتنی بر جامعه (Community-Driven Ruleset Composing Platform)
- مبتنی بر قواعد: به جای تکیه صرف بر مدلهای یادگیری ماشینی “جعبه سیاه”، این چارچوب بر توسعه مجموعهای از قواعد صریح برای استخراج اطلاعات تکیه دارد. این قواعد میتوانند توسط متخصصین حوزه (مانند پزشکان یا انفورماتیسینها) تعریف و تنظیم شوند.
- رویکرد مشارکتی: پلتفرم به گونهای طراحی شده است که به اعضای جامعه N3C و سایر محققین اجازه میدهد تا قواعد جدید را پیشنهاد دهند، قواعد موجود را اصلاح کنند یا مجموعههای قواعد خود را به اشتراک بگذارند. این رویکرد مشارکتی، دانش جمعی را در توسعه سیستمهای NLP منعکس میکند.
- مزایا: افزایش قابلیت تفسیر (زیرا قواعد قابل خواندن و فهم هستند)، قابلیت تنظیم آسانتر برای حوزههای خاص، و امکان ادغام دانش بالینی به طور مستقیم در فرآیند استخراج اطلاعات.
۳. جریان کاری تولید دادههای متنی ترکیبی (Synthetic Text Data Generation Workflow)
- هدف: ایجاد متون مصنوعی که از نظر ساختار و محتوا شبیه به یادداشتهای بالینی واقعی هستند، اما حاوی اطلاعات شناساییشده بیماران (PHI) نیستند. این امر برای حل مسائل حریم خصوصی و مقرراتی در تحقیقات بالینی حیاتی است.
- روش: این جریان کاری شامل تکنیکهایی برای تولید متون با حفظ الگوهای زبانی، واژگان بالینی و ویژگیهای اطلاعاتی مربوط به بیماریها (مانند COVID-19) است. این متون میتوانند برای توسعه و آزمایش الگوریتمهای استخراج اطلاعات بدون نیاز به دسترسی به دادههای واقعی بیماران استفاده شوند.
- کاربرد: امکان توسعه و آزمایش الگوریتمهای NLP توسط محققان بدون نیاز به مجوزهای پیچیده اخلاقی و حقوقی برای دسترسی به دادههای واقعی بیماران، و در عین حال اطمینان از مرتبط بودن مدلها با دادههای دنیای واقعی.
۴. جمعآوری و ارزیابی دادهها
- منابع داده: کورپوسهای متنی از یادداشتهای بالینی سه موسسه بزرگ پزشکی جمعآوری شدند: مایو کلینیک، دانشگاه کنتاکی، و دانشگاه مینهسوتا. تنوع در منابع داده به ارزیابی قابلیت تعمیم چارچوب کمک میکند.
- معیار ارزیابی: حاشیهنویسیهای استاندارد طلایی (که در مرحله اول تولید شده بودند) با مجموعهقواعد توسعه یافته از یک موسسه (مایو) آزمایش شدند. این بدان معناست که یک مجموعهقواعد مشترک بر روی دادههای سه موسسه مختلف اعمال شد تا عملکرد آن در محیطهای متنوع سنجیده شود.
- سنجه عملکرد: عملکرد سیستم با استفاده از معیار F-score اندازهگیری شد. F-score یک معیار ترکیبی از دقت (Precision) و بازیابی (Recall) است که برای ارزیابی عملکرد سیستمهای استخراج اطلاعات بسیار مناسب است.
۵. یافتههای کلیدی
نتایج ارزیابی چارچوب توسعه پردازش زبان طبیعی متنباز بر روی دادههای یادداشتهای بالینی مرتبط با COVID-19 از سه موسسه مختلف، بینشهای مهمی را ارائه داد:
- عملکرد F-score برای مجموعه دادههای آزمایشی مایو کلینیک: 0.876
- عملکرد F-score برای مجموعه دادههای آزمایشی دانشگاه مینهسوتا: 0.706
- عملکرد F-score برای مجموعه دادههای آزمایشی دانشگاه کنتاکی: 0.694
این نتایج چندین نکته کلیدی را برجسته میکنند:
-
قابلیت کارکرد چارچوب: بالاترین F-score (0.876) که در دادههای مایو کلینیک به دست آمد، نشاندهنده کارایی بسیار خوب سیستم در محیطی است که قواعد از آن سرچشمه گرفتهاند. این نشان میدهد که رویکرد مبتنی بر قواعد، زمانی که به خوبی با ویژگیهای زبانی و مفهومی یک موسسه خاص تنظیم شود، میتواند عملکرد بسیار بالایی داشته باشد.
-
قابلیت تعمیمپذیری در موسسات مختلف: اگرچه عملکرد F-score در دادههای دانشگاه مینهسوتا (0.706) و دانشگاه کنتاکی (0.694) کمی پایینتر از مایو بود، اما این امتیازات همچنان رضایتبخش و قابل قبول در نظر گرفته میشوند. این امر نشان میدهد که یک مجموعهقواعد توسعهیافته در یک موسسه میتواند به طور معقولی در موسسات دیگر نیز کاربرد داشته باشد، هرچند ممکن است نیاز به بهینهسازی و تنظیمات جزئی برای دستیابی به بالاترین دقت باشد.
این تفاوت در عملکرد بین موسسات، نشاندهنده تنوع در نحوه ثبت یادداشتهای بالینی، اصطلاحات خاص موسسهای و ساختارهای متنی است. به عنوان مثال، ممکن است پزشکان در یک بیمارستان از واژگان یا اختصارات متفاوتی برای توصیف یک علامت یکسان استفاده کنند.
-
امکانسنجی یک پلتفرم NLP فدرال: نتایج به وضوح امکانسنجی ایجاد یک پلتفرم توسعه و ارزیابی الگوریتمهای NLP فدرال را ثابت میکنند. این پلتفرم اجازه میدهد که الگوریتمها در یک محیط توزیعشده توسعه یافته و مورد آزمایش قرار گیرند، بدون اینکه دادههای حساس بیماران از موسسات مبدأ خود خارج شوند. این رویکرد میتواند به طور چشمگیری موانع قانونی و حریم خصوصی را برای انجام تحقیقات چند موسسهای کاهش دهد.
-
تاکید بر طراحی باز و مبتنی بر جامعه: عملکرد قابل قبول نشان میدهد که رویکرد متنباز و مبتنی بر جامعه برای توسعه قواعد و حاشیهنویسی دادهها، مسیری مؤثر برای افزایش شفافیت و قابلیت تفسیر نتایج NLP است. این امر به محققین بالینی اجازه میدهد تا در فرآیند توسعه مدلها مشارکت داشته و به نتایج اعتماد بیشتری داشته باشند.
-
مورد استفاده COVID-19 و قابلیت تعمیم: استفاده از علائم و نشانههای COVID-19 به عنوان مورد مطالعاتی موفقیتآمیز بوده و قابلیت چارچوب را برای استخراج اطلاعات حیاتی در زمان بحرانهای بهداشتی نشان میدهد. مهمتر از آن، نویسندگان تاکید میکنند که چارچوب به اندازهای عمومی است که میتوان آن را به سایر حوزههای بالینی، مانند سرطانشناسی، بیماریهای قلبی عروقی، یا اختلالات عصبی، تعمیم داد.
به طور خلاصه، یافتههای کلیدی این مطالعه نه تنها کارایی چارچوب پیشنهادی را در استخراج اطلاعات از یادداشتهای بالینی نشان میدهد، بلکه راه را برای انجام تحقیقات NLP بالینی در مقیاس وسیعتر و با همکاری موسسات متعدد هموار میسازد و به این ترتیب، گامی مهم در جهت پر کردن شکاف بین NLP و تحقیقات بالینی برمیدارد.
۶. کاربردها و دستاوردها
چارچوب توسعه پردازش زبان طبیعی متنباز که در این مطالعه ارائه شده است، دستاوردها و کاربردهای مهمی را در زمینه تحقیقات بالینی و پزشکی به همراه دارد:
-
۱. افزایش همکاری در تحقیقات بالینی چندموسسهای:
یکی از بزرگترین موانع در انجام مطالعات بالینی در مقیاس وسیع، نیاز به جمعآوری دادهها از چندین بیمارستان و موسسه است. این کار اغلب با چالشهای حقوقی، اخلاقی و فنی مرتبط با حریم خصوصی دادههای بیمار روبرو است. چارچوب پیشنهادی، به ویژه با رویکرد “فدرال” خود و تولید دادههای ترکیبی، این امکان را فراهم میکند که الگوریتمهای NLP به صورت مشترک توسعه و ارزیابی شوند، بدون اینکه دادههای حساس بیماران نیازی به ترک موسسه مبدأ خود داشته باشند. این امر به طور قابل توجهی امکان انجام مطالعات جامعتر و قدرتمندتر را افزایش میدهد.
-
۲. بهبود شفافیت، قابلیت تفسیر و قابلیت استفاده مدلهای NLP:
بر خلاف بسیاری از مدلهای “جعبه سیاه” یادگیری ماشینی، رویکرد مبتنی بر قواعد و متنباز این چارچوب، شفافیت کاملی را در نحوه استخراج اطلاعات فراهم میکند. محققان بالینی میتوانند به وضوح ببینند که چرا یک قطعه اطلاعات خاص استخراج شده است یا خیر. این قابلیت تفسیر، اعتماد به نتایج را افزایش میدهد و امکان تنظیم و بهینهسازی دقیقتر مدلها را بر اساس دانش بالینی فراهم میآورد. این دستاورد به پذیرش گستردهتر NLP در محیطهای بالینی کمک میکند.
-
۳. بستری برای ارزیابی و محکزنی الگوریتمهای NLP:
چارچوب N3C به عنوان یک پلتفرم مرکزی برای توسعه و ارزیابی الگوریتمهای NLP عمل میکند. این بدان معناست که محققان میتوانند الگوریتمهای جدید خود را بر روی مجموعههای داده استاندارد و حاشیهنویسیشده (Gold Standard) آزمایش کرده و عملکرد آنها را با الگوریتمهای موجود مقایسه کنند. این قابلیت محکزنی، به پیشرفت سریعتر حوزه NLP بالینی و شناسایی بهترین شیوهها کمک میکند.
-
۴. تسهیل استخراج اطلاعات کلیدی از یادداشتهای بالینی:
توانایی استخراج خودکار و دقیق اطلاعاتی مانند علائم، تشخیصها، نتایج آزمایشها، داروها و طرحهای درمانی از یادداشتهای بالینی، کاربردهای فراوانی دارد. این اطلاعات میتوانند برای موارد زیر استفاده شوند:
- شناسایی بیماران برای کارآزماییهای بالینی: به سرعت بیماران واجد شرایط را بر اساس معیارهای پیچیده در یادداشتهای EHR شناسایی کند.
- نظارت بر شیوع بیماریها: به ویژه در مورد بیماریهایی مانند COVID-19، استخراج علائم و تشخیصها میتواند به مقامات بهداشتی در پیگیری و مدیریت شیوع کمک کند.
- پشتیبانی از تصمیمگیری بالینی: ارائه خلاصههای مرتبط از اطلاعات بیمار به پزشکان.
- تحقیقات اپیدمیولوژیک: تحلیل روندهای بیماری و عوامل خطر در جمعیتهای بزرگ.
-
۵. غلبه بر موانع حریم خصوصی با دادههای ترکیبی:
تولید دادههای متنی ترکیبی (Synthetic Text Data) یکی از مهمترین دستاوردهای این چارچوب است. این دادهها مشکلات مرتبط با حریم خصوصی دادههای بیمار را حل میکنند و به محققان اجازه میدهند تا الگوریتمهای NLP را بر روی دادههایی که از نظر ساختار و معنا به دادههای واقعی نزدیک هستند، آموزش داده و آزمایش کنند، بدون اینکه هیچ اطلاعات شناساییکنندهای از بیماران فاش شود. این امر به ویژه برای کاربران خارجی و محققان آکادمیک که دسترسی مستقیم به دادههای واقعی EHR برایشان دشوار است، بسیار ارزشمند است.
-
۶. قابلیت تعمیم به حوزههای بالینی دیگر:
با وجود تمرکز اولیه بر COVID-19، نویسندگان تاکید میکنند که چارچوب ارائه شده کاملاً عمومی و قابل انطباق با سایر حوزههای پزشکی است. این بدان معناست که میتوان از همین زیرساخت برای استخراج اطلاعات مرتبط با بیماریهای قلبی، سرطان، بیماریهای نادر و سایر شرایط بالینی استفاده کرد، که پتانسیل گستردهای برای کاربردهای آتی در تحقیقات پزشکی فراهم میکند.
در مجموع، این پژوهش نه تنها یک ابزار قدرتمند برای جامعه NLP بالینی ارائه میدهد، بلکه با رفع موانع موجود، راه را برای نوآوریهای بیشتر و کاربردهای عملی NLP در مراقبتهای بهداشتی و تحقیقات پزشکی باز میکند.
۷. نتیجهگیری
در این مطالعه، یک چارچوب نوآورانه و متنباز برای توسعه پردازش زبان طبیعی (NLP) در تحقیقات بالینی مبتنی بر پروندههای الکترونیکی سلامت (EHR) معرفی و ارزیابی شد. هدف اصلی، مقابله با مقاومت جامعه تحقیقاتی در پذیرش مدلهای NLP بود که عمدتاً ناشی از کمبود شفافیت، قابلیت تفسیر و سهولت استفاده از این مدلها است.
مؤلفههای اصلی این چارچوب شامل فرآیند حاشیهنویسی دادههای باز، پلتفرم ترکیب قواعد مبتنی بر جامعه و جریان کاری تولید دادههای متنی ترکیبی، نه تنها به افزایش شفافیت و قابلیت تفسیر کمک میکنند، بلکه چالشهای مهمی مانند حریم خصوصی دادهها و نیاز به دسترسی گسترده به دادههای بالینی واقعی را نیز پوشش میدهند. این عناصر با همکاری یکدیگر، یک اکوسیستم قدرتمند برای توسعه و ارزیابی الگوریتمهای NLP فراهم میآورند.
اجرای آزمایشی این چارچوب با استفاده از علائم و نشانههای COVID-19 در بستر کنسرسیوم ملی کووید (N3C)، قابلیت عملیاتی بودن آن را به اثبات رساند. نتایج F-score در سه موسسه مختلف (مایو، مینهسوتا، کنتاکی) با امتیازات 0.876، 0.706 و 0.694، نشاندهنده عملکرد قابل قبول و توانایی تعمیمپذیری سیستم در محیطهای دادهای متنوع است، حتی اگر نیاز به تنظیمات دقیقتر برای دستیابی به حداکثر دقت در هر موسسه وجود داشته باشد.
این پژوهش، به عنوان یک تلاش جمعی در زیرگروه NLP کنسرسیوم N3C، گواهی بر امکانسنجی ایجاد یک پلتفرم توسعه و محکزنی الگوریتمهای NLP فدرال است. این پلتفرم قابلیت ارتقاء مطالعات NLP بالینی چند موسسهای و افزایش پذیرش آن را دارد. مهمتر از آن، معماری چارچوب به گونهای طراحی شده است که با وجود تمرکز بر COVID-19 به عنوان مورد مطالعاتی، به اندازهی کافی عمومی است تا در سایر حوزههای مورد علاقه در NLP بالینی نیز به کار گرفته شود.
در نهایت، این چارچوب نه تنها یک گام مهم در جهت دموکراتیزه کردن و استانداردسازی توسعه NLP بالینی است، بلکه با فراهم آوردن ابزارهایی برای غلبه بر موانع موجود، به محققان امکان میدهد تا از پتانسیل کامل دادههای عظیم EHR برای پیشبرد دانش پزشکی و بهبود مراقبت از بیمار بهرهبرداری کنند. آینده تحقیقات بالینی با رویکردهای مشارکتی و متنباز مانند آنچه در این مقاله ارائه شده است، بسیار امیدوارکننده به نظر میرسد.


نقد و بررسیها
هنوز بررسیای ثبت نشده است.