امروزه بسیاری از مردم به سوابق پزشکی خود از جمله یادداشت های بالینی پزشک خود دسترسی دیجیتالی دارند. با این حال، یادداشت های بالینی به دلیل زبان تخصصی که پزشکان از آن استفاده می کنند، که حاوی مختصر و اختصارات ناآشنا است، دشوار است. در واقع، هزاران اختصار از این قبیل وجود دارد که بسیاری از آنها مختص تخصصها و مناطق پزشکی خاص هستند یا میتوانند در زمینههای مختلف به معنای چندگانه باشند. به عنوان مثال، یک پزشک ممکن است در یادداشت های بالینی خود بنویسد “pt ارجاع به pt برای lbp”، که به معنای بیان این جمله است: “بیمار برای درمان کمردرد به فیزیوتراپی مراجعه می کند.” ارائه این ترجمه برای افراد عادی و رایانه ها دشوار است زیرا برخی از اختصارات در زبان روزمره غیر معمول هستند (مثلاً “lbp” به معنای “کمر درد”) و حتی اختصارات آشنا مانند “pt” برای “بیمار” می تواند باشد. معانی جایگزین، مانند “فیزیوتراپی”. برای رفع ابهام بین معانی متعدد، باید زمینه اطراف را در نظر گرفت. رمزگشایی همه معانی کار آسانی نیست و تحقیقات قبلی نشان می دهد که گسترش مختصر و اختصارات می تواند به بیماران کمک کند تا سلامت، تشخیص و درمان خود را بهتر درک کنند.
در “رمزگشایی اختصارات بالینی با سیستم یادگیری ماشینی محافظت از حریم خصوصی” منتشر شده در ارتباطات طبیعت، ما یافتههای خود را در مورد یک روش کلی گزارش میکنیم که اختصارات بالینی را به روشی رمزگشایی میکند که هم پیشرفته باشد و هم با پزشکان دارای مجوز هیئت مدیره در این کار همتراز باشد. ما این مدل را تنها با استفاده از دادههای عمومی در وب که با هیچ بیمار مرتبط نبودند (یعنی بدون دادههای بالقوه حساس) ساختیم و عملکرد را بر روی یادداشتهای واقعی و شناسایی نشده از پزشکان بستری و سرپایی از سیستمهای مختلف سلامت ارزیابی کردیم. برای فعال کردن مدل برای تعمیم از دادههای وب به یادداشتها، راهی برای بازنویسی الگوریتمی مقادیر زیادی از متن اینترنتی بهگونهای ایجاد کردیم که گویی توسط یک پزشک نوشته شده است (به نام جایگزینی معکوس در مقیاس وب، و ما یک روش استنتاج جدید را توسعه دادیم، (به نام استنتاج برانگیزاننده).
![]() |
ورودی مدل یک رشته است که ممکن است حاوی اختصارات پزشکی باشد یا نباشد. ما مدلی را برای خروجی یک رشته متناظر که در آن تمام اختصارات به طور همزمان شناسایی و گسترش مییابند آموزش دادیم. اگر رشته ورودی حاوی مخفف نباشد، مدل رشته اصلی را خروجی خواهد کرد. توسط Rajkomar و همکاران استفاده شده تحت CC BY 4.0/ برش از اصل. |
بازنویسی متن برای گنجاندن اختصارات پزشکی
ساختن سیستمی برای ترجمه یادداشتهای پزشکان معمولاً با یک مجموعه داده بزرگ و معرف از متن بالینی شروع میشود که در آن همه اختصارات با معانی آنها برچسبگذاری میشوند. اما چنین مجموعه داده ای برای استفاده عمومی توسط محققان وجود ندارد. بنابراین ما به دنبال ایجاد یک روش خودکار برای ایجاد چنین مجموعه دادهای بودیم، اما بدون استفاده از یادداشتهای واقعی بیمار، که ممکن است شامل دادههای حساس باشد. ما همچنین میخواستیم اطمینان حاصل کنیم که مدلهای آموزشدیده شده بر روی این دادهها همچنان روی یادداشتهای بالینی واقعی از چندین سایت بیمارستانی و انواع مراقبتها، مانند سرپایی و بستری، به خوبی کار میکنند.
برای انجام این کار، ما به فرهنگ لغت هزاران اختصار بالینی و بسط آنها ارجاع دادیم و جملاتی را در وب یافتیم که حاوی استفاده از بسط های این فرهنگ لغت بود. سپس آن جملات را با مخفف کردن هر بسط، «بازنویسی» کردیم، و در نتیجه دادههای وب به نظر میرسید که توسط یک پزشک نوشته شده بود. به عنوان مثال، اگر وب سایتی حاوی عبارت «بیماران مبتلا به فیبریلاسیون دهلیزی ممکن است درد قفسه سینه داشته باشند» باشد، این جمله را به صورت «pts with af can have cp» بازنویسی می کنیم. سپس از متن مخفف شده به عنوان ورودی مدل استفاده کردیم، با متن اصلی به عنوان برچسب. این رویکرد مقادیر زیادی داده را در اختیار ما قرار داد تا مدل خود را برای انجام بسط اختصاری آموزش دهیم.
ایده “جایگزینی معکوس” فرمهای طولانی برای اختصارات آنها در تحقیقات قبلی معرفی شده بود، اما الگوریتم توزیع شده ما به ما امکان می دهد این تکنیک را به مجموعه داده های بزرگ و در اندازه وب گسترش دهیم. الگوریتم ما به نام جایگزینی معکوس در مقیاس وب (WSRS)، طراحی شده است تا اطمینان حاصل شود که عبارتهای نادر بیشتر اتفاق میافتند و عبارات رایج در سراسر وب عمومی نمونهبرداری میشوند تا مجموعه داده متعادلتری به دست آید. با در دست داشتن این داده ها، ما مجموعه ای از مدل های زبان مبتنی بر ترانسفورماتور بزرگ را برای گسترش متن وب آموزش دادیم.
![]() |
ما متنی را برای آموزش مدل خود در کار رمزگشایی با استخراج عباراتی از صفحات وب عمومی که دارای اختصارات پزشکی مربوطه هستند (جعبه های سایه دار در سمت چپ) و سپس جایگزینی با اختصارات مناسب (نقاط سایه دار، سمت راست) تولید می کنیم. از آنجایی که برخی از کلمات بسیار بیشتر از سایرین یافت می شوند (“بیمار” بیشتر از “درشت نی خلفی”، که هر دو را می توان به اختصار “pt” نامید)، ما از بسط های رایج نمونه برداری کردیم تا مجموعه داده متعادل تری را در میان هزاران اختصار بدست آوریم. توسط Rajkomar و همکاران تحت CC BY 4.0 استفاده شده است. |
انطباق الگوریتم های تراز پروتئین با متن بالینی بدون ساختار
ارزیابی این مدلها در مورد کار خاص بسط اختصار دشوار است. از آنجایی که آنها متنی بدون ساختار را به عنوان خروجی تولید می کنند، باید بفهمیم که کدام اختصارات در ورودی با کدام بسط در خروجی مطابقت دارد. برای دستیابی به این هدف، ما یک نسخه اصلاح شده از الگوریتم Needleman Wunsch را ایجاد کردیم، که در ابتدا برای همترازی توالی واگرا در زیست شناسی مولکولی طراحی شده بود تا ورودی و خروجی مدل را تراز کند و جفت های اختصاری-بسط مربوطه را استخراج کند. با استفاده از این تکنیک تراز، ما توانستیم ظرفیت مدل را برای تشخیص و گسترش دقیق اختصارات ارزیابی کنیم. ما مدلهای تبدیل متن به متن (T5) را با اندازههای مختلف (از 60 میلیون تا بیش از 60 میلیارد پارامتر) ارزیابی کردیم و متوجه شدیم که مدلهای بزرگتر ترجمه را بهتر از مدلهای کوچکتر انجام میدهند و بزرگترین مدل بهترین عملکرد را به دست میآورد.
ایجاد تکنیکهای استنتاج مدل جدید برای همسو کردن مدل
با این حال، ما چیزی غیر منتظره پیدا کردیم. هنگامی که عملکرد چندین مجموعه تست خارجی را از روی یادداشتهای بالینی واقعی ارزیابی کردیم، متوجه شدیم که مدلها برخی از اختصارات را بازنموده میگذارند و برای مدلهای بزرگتر، مشکل گسترش ناقص حتی بدتر بود. این عمدتاً به این دلیل است که در حالی که گسترشهای وب را به جای اختصارات آنها جایگزین میکنیم، هیچ راهی برای رسیدگی به اختصارات موجود نداریم. این بدان معناست که اختصارات هم در متن اصلی و هم در متن بازنویسی شده به عنوان برچسبها و ورودیهای مربوطه ظاهر میشوند و مدل یاد میگیرد که آنها را گسترش ندهد.
برای پرداختن به این موضوع، ما یک تکنیک زنجیره استنتاج جدید را توسعه دادیم که در آن خروجی مدل مجدداً به عنوان ورودی تغذیه میشود تا مدل را وادار کند تا بسطهای بیشتری را تا زمانی که مدل به بسط اطمینان دارد، ایجاد کند. از نظر فنی، بهترین تکنیک ما که به آن می گوییم استنتاج برانگیزاننده، شامل بررسی خروجی های جستجوی پرتو بالاتر از آستانه احتمال ورود به سیستم است. با استفاده از استنتاج استخراجی، ما قادر به دستیابی به توانایی پیشرفته در گسترش اختصارات در مجموعههای تست خارجی متعدد بودیم.
![]() |
نمونه واقعی ورودی مدل (ترک کرد) و خروجی (درست). |
عملکرد مقایسه ای
ما همچنین به دنبال درک نحوه عملکرد بیماران و پزشکان در رمزگشایی یادداشت های بالینی و نحوه مقایسه مدل ما بودیم. ما دریافتیم که افراد غیر روحانی (افراد بدون آموزش پزشکی خاص) درک کمتر از 30٪ از اختصارات موجود در متون پزشکی نمونه را نشان دادند. هنگامی که به آنها اجازه دادیم از جستجوی Google استفاده کنند، درک آنها به نزدیک به 75٪ افزایش یافت، هنوز هم 1 از 5 اختصار غیرقابل کشف است. جای تعجب نیست که دانشجویان پزشکی و پزشکان آموزش دیده با دقت 90 درصد در این کار بسیار بهتر عمل کردند. ما متوجه شدیم که بزرگترین مدل ما قادر به تطبیق یا فراتر رفتن از متخصصان، با دقت 98٪ است.
چگونه این مدل در مقایسه با پزشکان در این کار به خوبی عمل می کند؟ دو عامل مهم در عملکرد نسبی بالای مدل وجود دارد. بخشی از اختلاف این است که برخی از اختصارات وجود داشت که پزشکان حتی سعی نکردند آنها را گسترش دهند (مانند “cm” برای سانتی متر)، که تا حدی عملکرد اندازه گیری شده را کاهش داد. این ممکن است بیاهمیت به نظر برسد، اما برای غیر انگلیسیزبانها، این اختصارات ممکن است آشنا نباشند، و بنابراین ممکن است نوشتن آنها مفید باشد. در مقابل، مدل ما برای گسترش جامع اختصارات طراحی شده است. علاوه بر این، پزشکان با اختصاراتی که معمولاً در تخصص خود می بینند، آشنا هستند، اما سایر متخصصان از کوتاه نویسی استفاده می کنند که برای کسانی که خارج از رشته خود نیستند، درک نمی کنند. مدل ما بر روی هزاران اختصار در چندین تخصص آموزش داده شده است و بنابراین می تواند وسعت اصطلاحات را رمزگشایی کند.
به سوی بهبود سواد سلامت
ما فکر میکنیم راههای متعددی وجود دارد که در آنها مدلهای زبانی بزرگ (LLM) میتوانند با تقویت اطلاعاتی که میبینند و میخوانند، به ارتقای سواد سلامتی بیماران کمک کنند. اکثر LLM ها بر روی داده هایی آموزش دیده اند که شبیه داده های یادداشت بالینی نیستند، و توزیع منحصر به فرد این داده ها، استقرار این مدل ها را به روشی خارج از جعبه چالش برانگیز می کند. ما نحوه غلبه بر این محدودیت را نشان داده ایم. مدل ما همچنین برای «عادیسازی» دادههای یادداشت بالینی کار میکند و قابلیتهای اضافی ML را تسهیل میکند تا درک متن را برای بیماران در تمام سطوح آموزشی و سواد سلامتی آسانتر کند.
سپاسگزاریها
این کار با همکاری یوچن لیو، جوناس کمپ، بنی لی، مینگ جون چن، یی ژانگ، افروز محدین و جورج گوتویس انجام شد. از لیزا ویلیامز، یون لیو، آرلین چانگ و اندرو دای برای گفتگوها و بحث های مفید در مورد این اثر تشکر می کنیم.