تجزیه و تحلیل پرونده های الکترونیک سلامت (EHR) پتانسیل فوق العاده ای برای افزایش مراقبت از بیمار، اندازه گیری کمی عملکرد اقدامات بالینی و تسهیل تحقیقات بالینی دارد. مدلهای تخمین آماری و یادگیری ماشین (ML) آموزشدیده بر روی دادههای EHR را میتوان برای پیشبینی احتمال بیماریهای مختلف (مانند دیابت)، ردیابی سلامتی بیمار و پیشبینی نحوه پاسخ بیماران به داروهای خاص استفاده کرد. برای چنین مدل هایی، محققان و پزشکان نیاز به دسترسی به داده های EHR دارند. با این حال، استفاده از داده های EHR در حالی که از حفظ حریم خصوصی داده ها و مطابقت با مقررات محرمانه بودن بیمار (مانند HIPAA) اطمینان حاصل می کند، می تواند چالش برانگیز باشد.
روشهای مرسوم برای ناشناسسازی دادهها (مثلاً حذف هویت) اغلب خستهکننده و پرهزینه هستند. علاوه بر این، آنها میتوانند ویژگیهای مهم مجموعه داده اصلی را تحریف کنند و کاربرد دادهها را به میزان قابل توجهی کاهش دهند. آنها همچنین می توانند در معرض حملات حریم خصوصی قرار گیرند. روش دیگر، یک رویکرد مبتنی بر تولید داده های مصنوعی می تواند هم ویژگی های مهم مجموعه داده ها و هم حریم خصوصی را حفظ کند.
برای این منظور، ما یک چارچوب مدلسازی مولد جدید را در «EHR-Safe: ایجاد پروندههای سلامت الکترونیک مصنوعی با وفاداری بالا و حفظ حریم خصوصی» پیشنهاد میکنیم. : (i) وفاداری بالا (یعنی برای کار مورد علاقه مفید هستند، مانند داشتن عملکرد پایین دستی مشابه زمانی که یک مدل تشخیصی بر روی آنها آموزش داده شده است)، (ب) معیارهای حفظ حریم خصوصی خاصی را رعایت کنند (یعنی هیچ واقعی را نشان نمیدهند. هویت بیمار).
تولید داده های مصنوعی از داده های اصلی با EHR-Safe. |
چالش های تولید داده های EHR مصنوعی واقعی
چندین چالش اساسی برای تولید داده های EHR مصنوعی وجود دارد. داده های EHR حاوی ویژگی های ناهمگن با ویژگی ها و توزیع های مختلف است. میتواند ویژگیهای عددی (مثلاً فشار خون) و ویژگیهای طبقهبندی شده با چندین یا دو دسته (مثلاً کدهای پزشکی، نتیجه مرگومیر) وجود داشته باشد. برخی از اینها ممکن است ایستا باشند (یعنی در طول پنجره مدلسازی تغییر نکنند)، در حالی که برخی دیگر با زمان متغیر هستند، مانند اندازهگیریهای آزمایشگاهی منظم یا پراکنده. توزیعها ممکن است از خانوادههای متفاوتی باشند – توزیعهای طبقهبندی میتوانند بسیار غیریکنواخت باشند (مثلاً برای گروههایی که کمتر نشان داده شدهاند) و توزیعهای عددی میتوانند بسیار کجرو باشند (مثلاً، بخش کوچکی از مقادیر بسیار بزرگ هستند در حالی که اکثریت قریب به اتفاق کوچک هستند). بسته به وضعیت بیمار، تعداد ویزیت ها نیز می تواند به شدت متفاوت باشد – برخی از بیماران تنها یک بار به کلینیک مراجعه می کنند در حالی که برخی صدها بار به کلینیک مراجعه می کنند که منجر به واریانس در طول توالی می شود که معمولاً در مقایسه با سایر داده های سری زمانی بسیار بیشتر است. ممکن است نسبت بالایی از ویژگی های از دست رفته در بیماران مختلف و مراحل زمانی مختلف وجود داشته باشد، زیرا همه اندازه گیری های آزمایشگاهی یا سایر داده های ورودی جمع آوری نمی شوند.
نمونه هایی از داده های EHR واقعی: ویژگی های عددی زمانی (بالا) و ویژگی های طبقه بندی زمانی (پایین تر). |
EHR-Safe: Synthetic EHR Data Generation Framework
EHR-Safe از معماری رمزگذار-رمزگشا متوالی و شبکههای متخاصم مولد (GAN) تشکیل شده است که در شکل زیر نشان داده شدهاند. از آنجایی که داده های EHR ناهمگن هستند (همانطور که در بالا توضیح داده شد)، مدل سازی مستقیم داده های EHR خام برای GAN ها چالش برانگیز است. برای دور زدن این، ما استفاده از معماری رمزگذار-رمزگشای متوالی را پیشنهاد میکنیم، تا نگاشت از دادههای EHR خام به نمایشهای نهفته را یاد بگیریم و بالعکس.
بلوک دیاگرام چارچوب EHR-Safe. |
در حین یادگیری نقشه برداری، توزیع های باطنی ویژگی های عددی و مقوله ای چالش بزرگی را ایجاد می کند. برای مثال، برخی از مقادیر یا محدودههای عددی ممکن است بر توزیع غالب باشند، اما قابلیت مدلسازی موارد نادر ضروری است. نقشهبرداری ویژگی پیشنهادی و عادیسازی تصادفی (تبدیل توزیعهای ویژگی اصلی به توزیعهای یکنواخت بدون از دست دادن اطلاعات) کلید مدیریت چنین دادههایی با تبدیل به توزیعهایی هستند که آموزش رمزگذار-رمزگشا و GAN پایدارتر هستند (جزئیات را میتوان در مقاله یافت. ). بازنمایی های نهفته نگاشت شده، که توسط رمزگذار ایجاد می شوند، سپس برای آموزش GAN استفاده می شوند. پس از آموزش چارچوب رمزگذار-رمزگشا و GAN ها، EHR-Safe میتواند دادههای مصنوعی ناهمگن EHR را از هر ورودی تولید کند، که برای آن بردارهای نمونهگیری تصادفی را تغذیه میکنیم. توجه داشته باشید که فقط از ژنراتور و رمزگشاهای آموزش دیده برای تولید داده های مصنوعی استفاده می شود.
مجموعه داده ها
ما روی دو مجموعه داده EHR دنیای واقعی تمرکز میکنیم تا چارچوب EHR-Safe، MIMIC-III و eICU را به نمایش بگذاریم. هر دو مجموعه دادههای بستری هستند که از طولهای مختلف دنبالهها تشکیل شدهاند و شامل چندین ویژگی عددی و دستهبندی با اجزای گمشده هستند.
نتایج وفاداری
معیارهای وفاداری بر کیفیت دادههای مصنوعی تولید شده با اندازهگیری واقعی بودن دادههای مصنوعی تمرکز میکنند. وفاداری بالاتر نشان می دهد که تمایز بین داده های مصنوعی و واقعی دشوارتر است. ما صحت داده های مصنوعی را از نظر تحلیل های کمی و کیفی متعدد ارزیابی می کنیم.
تجسم
داشتن پوشش مشابه و اجتناب از بازنمایی رژیمهای داده خاص، هر دو برای تولید دادههای مصنوعی مهم هستند. همانطور که تجزیه و تحلیل t-SNE زیر نشان می دهد، پوشش داده های مصنوعی (آبی) بسیار شبیه به داده های اصلی (قرمز) است. با معیارهای استنتاج عضویت (در بخش حریم خصوصی معرفی خواهد شد)، همچنین تأیید میکنیم که EHR-Safe فقط دادههای قطار اصلی را به خاطر نمیسپارد.
تجزیه و تحلیل t-SNE بر روی داده های زمانی و استاتیک در MIMIC-III (بالا) و eICU (پایین تر) مجموعه داده ها. |
شباهت آماری
ما مقایسه های کمی شباهت آماری بین داده های اصلی و مصنوعی را برای هر ویژگی ارائه می دهیم. اکثر آمارها به خوبی بین داده های اصلی و مصنوعی همسو هستند – برای مثال معیاری از آمار KS، به عنوان مثال،. حداکثر تفاوت در تابع توزیع تجمعی (CDF) بین داده های اصلی و مصنوعی، اغلب کمتر از 0.03 است. جداول دقیق تر را می توان در مقاله یافت. شکل زیر نمودارهای CDF را برای داده های اصلی در مقابل داده های مصنوعی برای سه ویژگی نشان می دهد – به طور کلی در بیشتر موارد آنها بسیار نزدیک به نظر می رسند.
نمودارهای CDF از دو ویژگی بین داده های EHR اصلی و مصنوعی. ترک کرد: فشار متوسط راه هوایی. درست: زنگ دقیقه صدا. |
سودمند
از آنجا که یکی از مهمترین موارد استفاده از دادههای مصنوعی، نوآوریهای ML است، ما بر معیار وفاداری تمرکز میکنیم که توانایی مدلهای آموزشدیده بر روی دادههای مصنوعی را برای پیشبینی دقیق روی دادههای واقعی اندازهگیری میکند. ما چنین عملکرد مدل را با یک مدل معادل آموزش داده شده با داده های واقعی مقایسه می کنیم. عملکرد مدل مشابه نشان میدهد که دادههای مصنوعی محتوای اطلاعاتی مربوطه را برای کار جمعآوری میکنند. به عنوان یکی از موارد استفاده بالقوه مهم از EHR، ما بر روی کار پیش بینی مرگ و میر تمرکز می کنیم. ما چهار مدل مختلف پیشبینی را در نظر میگیریم: گروه درختی تقویتکننده گرادیان (GBDT)، جنگل تصادفی (RF)، رگرسیون لجستیک (LR)، واحدهای بازگشتی دردار (GRU).
عملکرد پیش بینی مرگ و میر با مدل آموزش داده شده بر روی داده های واقعی در مقابل مصنوعی. ترک کرد: MIMIC-III. درست: eICU. |
در شکل بالا می بینیم که در اکثر سناریوها، آموزش بر روی داده های مصنوعی و واقعی از نظر منحنی مشخصه های عملیاتی ناحیه زیر گیرنده (AUC) بسیار مشابه است. در MIMIC-III، بهترین مدل (GBDT) در داده های مصنوعی تنها 2.6٪ بدتر از بهترین مدل در داده های واقعی است. در حالی که در eICU، بهترین مدل (RF) در داده های مصنوعی تنها 0.9٪ بدتر است.
نتایج حریم خصوصی
ما سه حمله مختلف حریم خصوصی را برای تعیین کمیت استحکام دادههای مصنوعی با توجه به حریم خصوصی در نظر میگیریم.
- حمله استنتاج عضویت: یک حریف پیش بینی می کند که آیا یک موضوع شناخته شده در داده های آموزشی مورد استفاده برای آموزش مدل داده مصنوعی حضور داشته است یا خیر.
- حمله شناسایی مجدد: دشمن احتمال شناسایی مجدد برخی از ویژگی ها را با استفاده از داده های مصنوعی و تطبیق با داده های آموزشی بررسی می کند.
- حمله استنتاج ویژگی: حریف ارزش ویژگی های حساس را با استفاده از داده های مصنوعی پیش بینی می کند.
ارزیابی ریسک حریم خصوصی در سه معیار حریم خصوصی: استنتاج عضویت (بالا سمت چپشناسایی مجدد (بالا سمت راستو استنتاج صفت (پایین). ارزش ایده آل ریسک حریم خصوصی برای استنباط عضویت حدس تصادفی (0.5) است. برای شناسایی مجدد، حالت ایدهآل جایگزینی دادههای مصنوعی با دادههای اصلی غیرمجاز است. |
شکل بالا نتایج را به همراه مقدار ایده آل قابل دستیابی برای هر متریک خلاصه می کند. مشاهده می کنیم که معیارهای حریم خصوصی در همه موارد بسیار به ایده آل نزدیک است. خطر درک اینکه آیا نمونه ای از داده های اصلی عضوی است که برای آموزش مدل استفاده می شود یا خیر، به حدس زدن تصادفی بسیار نزدیک است. همچنین تأیید می کند که EHR-Safe فقط داده های اصلی قطار را به خاطر نمی سپارد. برای حمله استنتاج ویژگی، ما بر وظیفه پیشبینی استنباط ویژگیهای خاص (به عنوان مثال، جنسیت، مذهب، و وضعیت تأهل) از سایر ویژگیها تمرکز میکنیم. ما دقت پیشبینی را هنگام آموزش یک طبقهبندی با دادههای واقعی با طبقهبندیکننده مشابه آموزشدیده با دادههای مصنوعی مقایسه میکنیم. از آنجایی که نوارهای EHR-Safe همگی پایینتر هستند، نتایج نشان میدهد که دسترسی به دادههای مصنوعی منجر به عملکرد پیشبینی بالاتر در ویژگیهای خاص در مقایسه با دسترسی به دادههای اصلی نمیشود.
مقایسه با روش های جایگزین
ما EHR-Safe را با گزینههای جایگزین (TimeGAN، RC-GAN، C-RNN-GAN) که برای تولید دادههای مصنوعی سری زمانی پیشنهاد شدهاند، مقایسه میکنیم. همانطور که در زیر نشان داده شده است، EHR-Safe به طور قابل توجهی بهتر از هر یک است.
عملکرد پایین دستی کار (AUC) در مقایسه با جایگزین ها. |
نتیجه گیری
ما یک چارچوب مدلسازی مولد جدید، EHR-Safe، پیشنهاد میکنیم که میتواند دادههای EHR مصنوعی بسیار واقعی را تولید کند که در برابر حملات حریم خصوصی قوی هستند. EHR-Safe مبتنی بر شبکههای متخاصم مولد است که روی دادههای خام کدگذاری شده اعمال میشود. ما چندین نوآوری در معماری و مکانیسمهای آموزشی معرفی میکنیم که با چالشهای کلیدی دادههای EHR ایجاد میشوند. این نوآوریها کلید نتایج ما هستند که ویژگیهای تقریباً یکسانی را با دادههای واقعی نشان میدهند (زمانی که قابلیتهای پایین دستی مورد نظر در نظر گرفته میشوند) با حفظ حریم خصوصی تقریباً ایدهآل. یک جهت مهم در آینده، قابلیت مدلسازی مولد برای دادههای چندوجهی، از جمله متن و تصویر است، زیرا دادههای EHR مدرن ممکن است حاوی هر دو باشد.
سپاسگزاریها
ما از کمک های میشل میزراهی، ناهید فرهادی قلاتی، توماس جاروینن، اشوین اس. راوی، پیتر برون، فانیو کونگ، دیو اندرسون، جورج لی، آری مایر، فرهانا باندوکوالا، الی کانال و توماس پیستر سپاسگزاریم.