رمزگشایی اختصارات بالینی با محافظت از حریم خصوصی ML – وبلاگ هوش مصنوعی گوگل

امروزه بسیاری از مردم به سوابق پزشکی خود از جمله یادداشت های بالینی پزشک خود دسترسی دیجیتالی دارند. با این حال، یادداشت های بالینی به دلیل زبان تخصصی که پزشکان از آن استفاده می کنند، که حاوی مختصر و اختصارات ناآشنا است، دشوار است. در واقع، هزاران اختصار از این قبیل وجود دارد که بسیاری از آنها مختص تخصص‌ها و مناطق پزشکی خاص هستند یا می‌توانند در زمینه‌های مختلف به معنای چندگانه باشند. به عنوان مثال، یک پزشک ممکن است در یادداشت های بالینی خود بنویسد “pt ارجاع به pt برای lbp”، که به معنای بیان این جمله است: “بیمار برای درمان کمردرد به فیزیوتراپی مراجعه می کند.” ارائه این ترجمه برای افراد عادی و رایانه ها دشوار است زیرا برخی از اختصارات در زبان روزمره غیر معمول هستند (مثلاً “lbp” به معنای “کمر درد”) و حتی اختصارات آشنا مانند “pt” برای “بیمار” می تواند باشد. معانی جایگزین، مانند “فیزیوتراپی”. برای رفع ابهام بین معانی متعدد، باید زمینه اطراف را در نظر گرفت. رمزگشایی همه معانی کار آسانی نیست و تحقیقات قبلی نشان می دهد که گسترش مختصر و اختصارات می تواند به بیماران کمک کند تا سلامت، تشخیص و درمان خود را بهتر درک کنند.

در “رمزگشایی اختصارات بالینی با سیستم یادگیری ماشینی محافظت از حریم خصوصی” منتشر شده در ارتباطات طبیعت، ما یافته‌های خود را در مورد یک روش کلی گزارش می‌کنیم که اختصارات بالینی را به روشی رمزگشایی می‌کند که هم پیشرفته باشد و هم با پزشکان دارای مجوز هیئت مدیره در این کار همتراز باشد. ما این مدل را تنها با استفاده از داده‌های عمومی در وب که با هیچ بیمار مرتبط نبودند (یعنی بدون داده‌های بالقوه حساس) ساختیم و عملکرد را بر روی یادداشت‌های واقعی و شناسایی نشده از پزشکان بستری و سرپایی از سیستم‌های مختلف سلامت ارزیابی کردیم. برای فعال کردن مدل برای تعمیم از داده‌های وب به یادداشت‌ها، راهی برای بازنویسی الگوریتمی مقادیر زیادی از متن اینترنتی به‌گونه‌ای ایجاد کردیم که گویی توسط یک پزشک نوشته شده است (به نام جایگزینی معکوس در مقیاس وب، و ما یک روش استنتاج جدید را توسعه دادیم، (به نام استنتاج برانگیزاننده).

ورودی مدل یک رشته است که ممکن است حاوی اختصارات پزشکی باشد یا نباشد. ما مدلی را برای خروجی یک رشته متناظر که در آن تمام اختصارات به طور همزمان شناسایی و گسترش می‌یابند آموزش دادیم. اگر رشته ورودی حاوی مخفف نباشد، مدل رشته اصلی را خروجی خواهد کرد. توسط Rajkomar و همکاران استفاده شده تحت CC BY 4.0/ برش از اصل.
مطالب پیشنهادی  افزایش پس انتشار از طریق Local Loss Optimization

بازنویسی متن برای گنجاندن اختصارات پزشکی

ساختن سیستمی برای ترجمه یادداشت‌های پزشکان معمولاً با یک مجموعه داده بزرگ و معرف از متن بالینی شروع می‌شود که در آن همه اختصارات با معانی آنها برچسب‌گذاری می‌شوند. اما چنین مجموعه داده ای برای استفاده عمومی توسط محققان وجود ندارد. بنابراین ما به دنبال ایجاد یک روش خودکار برای ایجاد چنین مجموعه داده‌ای بودیم، اما بدون استفاده از یادداشت‌های واقعی بیمار، که ممکن است شامل داده‌های حساس باشد. ما همچنین می‌خواستیم اطمینان حاصل کنیم که مدل‌های آموزش‌دیده شده بر روی این داده‌ها همچنان روی یادداشت‌های بالینی واقعی از چندین سایت بیمارستانی و انواع مراقبت‌ها، مانند سرپایی و بستری، به خوبی کار می‌کنند.

برای انجام این کار، ما به فرهنگ لغت هزاران اختصار بالینی و بسط آنها ارجاع دادیم و جملاتی را در وب یافتیم که حاوی استفاده از بسط های این فرهنگ لغت بود. سپس آن جملات را با مخفف کردن هر بسط، «بازنویسی» کردیم، و در نتیجه داده‌های وب به نظر می‌رسید که توسط یک پزشک نوشته شده بود. به عنوان مثال، اگر وب سایتی حاوی عبارت «بیماران مبتلا به فیبریلاسیون دهلیزی ممکن است درد قفسه سینه داشته باشند» باشد، این جمله را به صورت «pts with af can have cp» بازنویسی می کنیم. سپس از متن مخفف شده به عنوان ورودی مدل استفاده کردیم، با متن اصلی به عنوان برچسب. این رویکرد مقادیر زیادی داده را در اختیار ما قرار داد تا مدل خود را برای انجام بسط اختصاری آموزش دهیم.

ایده “جایگزینی معکوس” فرمهای طولانی برای اختصارات آنها در تحقیقات قبلی معرفی شده بود، اما الگوریتم توزیع شده ما به ما امکان می دهد این تکنیک را به مجموعه داده های بزرگ و در اندازه وب گسترش دهیم. الگوریتم ما به نام جایگزینی معکوس در مقیاس وب (WSRS)، طراحی شده است تا اطمینان حاصل شود که عبارت‌های نادر بیشتر اتفاق می‌افتند و عبارات رایج در سراسر وب عمومی نمونه‌برداری می‌شوند تا مجموعه داده متعادل‌تری به دست آید. با در دست داشتن این داده ها، ما مجموعه ای از مدل های زبان مبتنی بر ترانسفورماتور بزرگ را برای گسترش متن وب آموزش دادیم.

ما متنی را برای آموزش مدل خود در کار رمزگشایی با استخراج عباراتی از صفحات وب عمومی که دارای اختصارات پزشکی مربوطه هستند (جعبه های سایه دار در سمت چپ) و سپس جایگزینی با اختصارات مناسب (نقاط سایه دار، سمت راست) تولید می کنیم. از آنجایی که برخی از کلمات بسیار بیشتر از سایرین یافت می شوند (“بیمار” بیشتر از “درشت نی خلفی”، که هر دو را می توان به اختصار “pt” نامید)، ما از بسط های رایج نمونه برداری کردیم تا مجموعه داده متعادل تری را در میان هزاران اختصار بدست آوریم. توسط Rajkomar و همکاران تحت CC BY 4.0 استفاده شده است.
مطالب پیشنهادی  مقیاس بندی زبان-آموزش تصویر در بیش از 100 زبان

انطباق الگوریتم های تراز پروتئین با متن بالینی بدون ساختار

ارزیابی این مدل‌ها در مورد کار خاص بسط اختصار دشوار است. از آنجایی که آنها متنی بدون ساختار را به عنوان خروجی تولید می کنند، باید بفهمیم که کدام اختصارات در ورودی با کدام بسط در خروجی مطابقت دارد. برای دستیابی به این هدف، ما یک نسخه اصلاح شده از الگوریتم Needleman Wunsch را ایجاد کردیم، که در ابتدا برای همترازی توالی واگرا در زیست شناسی مولکولی طراحی شده بود تا ورودی و خروجی مدل را تراز کند و جفت های اختصاری-بسط مربوطه را استخراج کند. با استفاده از این تکنیک تراز، ما توانستیم ظرفیت مدل را برای تشخیص و گسترش دقیق اختصارات ارزیابی کنیم. ما مدل‌های تبدیل متن به متن (T5) را با اندازه‌های مختلف (از 60 میلیون تا بیش از 60 میلیارد پارامتر) ارزیابی کردیم و متوجه شدیم که مدل‌های بزرگ‌تر ترجمه را بهتر از مدل‌های کوچک‌تر انجام می‌دهند و بزرگترین مدل بهترین عملکرد را به دست می‌آورد.

ایجاد تکنیک‌های استنتاج مدل جدید برای همسو کردن مدل

با این حال، ما چیزی غیر منتظره پیدا کردیم. هنگامی که عملکرد چندین مجموعه تست خارجی را از روی یادداشت‌های بالینی واقعی ارزیابی کردیم، متوجه شدیم که مدل‌ها برخی از اختصارات را بازنموده می‌گذارند و برای مدل‌های بزرگ‌تر، مشکل گسترش ناقص حتی بدتر بود. این عمدتاً به این دلیل است که در حالی که گسترش‌های وب را به جای اختصارات آن‌ها جایگزین می‌کنیم، هیچ راهی برای رسیدگی به اختصارات موجود نداریم. این بدان معناست که اختصارات هم در متن اصلی و هم در متن بازنویسی شده به عنوان برچسب‌ها و ورودی‌های مربوطه ظاهر می‌شوند و مدل یاد می‌گیرد که آنها را گسترش ندهد.

برای پرداختن به این موضوع، ما یک تکنیک زنجیره استنتاج جدید را توسعه دادیم که در آن خروجی مدل مجدداً به عنوان ورودی تغذیه می‌شود تا مدل را وادار کند تا بسط‌های بیشتری را تا زمانی که مدل به بسط اطمینان دارد، ایجاد کند. از نظر فنی، بهترین تکنیک ما که به آن می گوییم استنتاج برانگیزاننده، شامل بررسی خروجی های جستجوی پرتو بالاتر از آستانه احتمال ورود به سیستم است. با استفاده از استنتاج استخراجی، ما قادر به دستیابی به توانایی پیشرفته در گسترش اختصارات در مجموعه‌های تست خارجی متعدد بودیم.

نمونه واقعی ورودی مدل (ترک کرد) و خروجی (درست).

عملکرد مقایسه ای

ما همچنین به دنبال درک نحوه عملکرد بیماران و پزشکان در رمزگشایی یادداشت های بالینی و نحوه مقایسه مدل ما بودیم. ما دریافتیم که افراد غیر روحانی (افراد بدون آموزش پزشکی خاص) درک کمتر از 30٪ از اختصارات موجود در متون پزشکی نمونه را نشان دادند. هنگامی که به آنها اجازه دادیم از جستجوی Google استفاده کنند، درک آنها به نزدیک به 75٪ افزایش یافت، هنوز هم 1 از 5 اختصار غیرقابل کشف است. جای تعجب نیست که دانشجویان پزشکی و پزشکان آموزش دیده با دقت 90 درصد در این کار بسیار بهتر عمل کردند. ما متوجه شدیم که بزرگترین مدل ما قادر به تطبیق یا فراتر رفتن از متخصصان، با دقت 98٪ است.

مطالب پیشنهادی  کی چی گفت راه حل روی دستگاه ضبط کننده برای برچسب زدن بلندگوها – وبلاگ هوش مصنوعی گوگل

چگونه این مدل در مقایسه با پزشکان در این کار به خوبی عمل می کند؟ دو عامل مهم در عملکرد نسبی بالای مدل وجود دارد. بخشی از اختلاف این است که برخی از اختصارات وجود داشت که پزشکان حتی سعی نکردند آنها را گسترش دهند (مانند “cm” برای سانتی متر)، که تا حدی عملکرد اندازه گیری شده را کاهش داد. این ممکن است بی‌اهمیت به نظر برسد، اما برای غیر انگلیسی‌زبان‌ها، این اختصارات ممکن است آشنا نباشند، و بنابراین ممکن است نوشتن آنها مفید باشد. در مقابل، مدل ما برای گسترش جامع اختصارات طراحی شده است. علاوه بر این، پزشکان با اختصاراتی که معمولاً در تخصص خود می بینند، آشنا هستند، اما سایر متخصصان از کوتاه نویسی استفاده می کنند که برای کسانی که خارج از رشته خود نیستند، درک نمی کنند. مدل ما بر روی هزاران اختصار در چندین تخصص آموزش داده شده است و بنابراین می تواند وسعت اصطلاحات را رمزگشایی کند.

به سوی بهبود سواد سلامت

ما فکر می‌کنیم راه‌های متعددی وجود دارد که در آنها مدل‌های زبانی بزرگ (LLM) می‌توانند با تقویت اطلاعاتی که می‌بینند و می‌خوانند، به ارتقای سواد سلامتی بیماران کمک کنند. اکثر LLM ها بر روی داده هایی آموزش دیده اند که شبیه داده های یادداشت بالینی نیستند، و توزیع منحصر به فرد این داده ها، استقرار این مدل ها را به روشی خارج از جعبه چالش برانگیز می کند. ما نحوه غلبه بر این محدودیت را نشان داده ایم. مدل ما همچنین برای «عادی‌سازی» داده‌های یادداشت بالینی کار می‌کند و قابلیت‌های اضافی ML را تسهیل می‌کند تا درک متن را برای بیماران در تمام سطوح آموزشی و سواد سلامتی آسان‌تر کند.

سپاسگزاریها

این کار با همکاری یوچن لیو، جوناس کمپ، بنی لی، مینگ جون چن، یی ژانگ، افروز محدین و جورج گوتویس انجام شد. از لیزا ویلیامز، یون لیو، آرلین چانگ و اندرو دای برای گفتگوها و بحث های مفید در مورد این اثر تشکر می کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور