ایجاد سوابق سلامت الکترونیک مصنوعی با وفاداری بالا و حفظ حریم خصوصی – وبلاگ هوش مصنوعی گوگل - سئو PBN

ارسال شده توسط Jinsung Yoon و Sercan O. Arik، دانشمندان تحقیقاتی، تحقیقات گوگل، تیم هوش مصنوعی Cloud

تجزیه و تحلیل پرونده های الکترونیک سلامت (EHR) پتانسیل فوق العاده ای برای افزایش مراقبت از بیمار، اندازه گیری کمی عملکرد اقدامات بالینی و تسهیل تحقیقات بالینی دارد. مدل‌های تخمین آماری و یادگیری ماشین (ML) آموزش‌دیده بر روی داده‌های EHR را می‌توان برای پیش‌بینی احتمال بیماری‌های مختلف (مانند دیابت)، ردیابی سلامتی بیمار و پیش‌بینی نحوه پاسخ بیماران به داروهای خاص استفاده کرد. برای چنین مدل هایی، محققان و پزشکان نیاز به دسترسی به داده های EHR دارند. با این حال، استفاده از داده های EHR در حالی که از حفظ حریم خصوصی داده ها و مطابقت با مقررات محرمانه بودن بیمار (مانند HIPAA) اطمینان حاصل می کند، می تواند چالش برانگیز باشد.

روش‌های مرسوم برای ناشناس‌سازی داده‌ها (مثلاً حذف هویت) اغلب خسته‌کننده و پرهزینه هستند. علاوه بر این، آنها می‌توانند ویژگی‌های مهم مجموعه داده اصلی را تحریف کنند و کاربرد داده‌ها را به میزان قابل توجهی کاهش دهند. آنها همچنین می توانند در معرض حملات حریم خصوصی قرار گیرند. روش دیگر، یک رویکرد مبتنی بر تولید داده های مصنوعی می تواند هم ویژگی های مهم مجموعه داده ها و هم حریم خصوصی را حفظ کند.

برای این منظور، ما یک چارچوب مدل‌سازی مولد جدید را در «EHR-Safe: ایجاد پرونده‌های سلامت الکترونیک مصنوعی با وفاداری بالا و حفظ حریم خصوصی» پیشنهاد می‌کنیم. : (i) وفاداری بالا (یعنی برای کار مورد علاقه مفید هستند، مانند داشتن عملکرد پایین دستی مشابه زمانی که یک مدل تشخیصی بر روی آنها آموزش داده شده است)، (ب) معیارهای حفظ حریم خصوصی خاصی را رعایت کنند (یعنی هیچ واقعی را نشان نمی‌دهند. هویت بیمار).

تولید داده های مصنوعی از داده های اصلی با EHR-Safe.

چالش های تولید داده های EHR مصنوعی واقعی

چندین چالش اساسی برای تولید داده های EHR مصنوعی وجود دارد. داده های EHR حاوی ویژگی های ناهمگن با ویژگی ها و توزیع های مختلف است. می‌تواند ویژگی‌های عددی (مثلاً فشار خون) و ویژگی‌های طبقه‌بندی شده با چندین یا دو دسته (مثلاً کدهای پزشکی، نتیجه مرگ‌ومیر) وجود داشته باشد. برخی از اینها ممکن است ایستا باشند (یعنی در طول پنجره مدل‌سازی تغییر نکنند)، در حالی که برخی دیگر با زمان متغیر هستند، مانند اندازه‌گیری‌های آزمایشگاهی منظم یا پراکنده. توزیع‌ها ممکن است از خانواده‌های متفاوتی باشند – توزیع‌های طبقه‌بندی می‌توانند بسیار غیریکنواخت باشند (مثلاً برای گروه‌هایی که کمتر نشان داده شده‌اند) و توزیع‌های عددی می‌توانند بسیار کج‌رو باشند (مثلاً، بخش کوچکی از مقادیر بسیار بزرگ هستند در حالی که اکثریت قریب به اتفاق کوچک هستند). بسته به وضعیت بیمار، تعداد ویزیت ها نیز می تواند به شدت متفاوت باشد – برخی از بیماران تنها یک بار به کلینیک مراجعه می کنند در حالی که برخی صدها بار به کلینیک مراجعه می کنند که منجر به واریانس در طول توالی می شود که معمولاً در مقایسه با سایر داده های سری زمانی بسیار بیشتر است. ممکن است نسبت بالایی از ویژگی های از دست رفته در بیماران مختلف و مراحل زمانی مختلف وجود داشته باشد، زیرا همه اندازه گیری های آزمایشگاهی یا سایر داده های ورودی جمع آوری نمی شوند.

نمونه هایی از داده های EHR واقعی: ویژگی های عددی زمانی (بالا) و ویژگی های طبقه بندی زمانی (پایین تر).

EHR-Safe: Synthetic EHR Data Generation Framework

EHR-Safe از معماری رمزگذار-رمزگشا متوالی و شبکه‌های متخاصم مولد (GAN) تشکیل شده است که در شکل زیر نشان داده شده‌اند. از آنجایی که داده های EHR ناهمگن هستند (همانطور که در بالا توضیح داده شد)، مدل سازی مستقیم داده های EHR خام برای GAN ها چالش برانگیز است. برای دور زدن این، ما استفاده از معماری رمزگذار-رمزگشای متوالی را پیشنهاد می‌کنیم، تا نگاشت از داده‌های EHR خام به نمایش‌های نهفته را یاد بگیریم و بالعکس.

بلوک دیاگرام چارچوب EHR-Safe.

در حین یادگیری نقشه برداری، توزیع های باطنی ویژگی های عددی و مقوله ای چالش بزرگی را ایجاد می کند. برای مثال، برخی از مقادیر یا محدوده‌های عددی ممکن است بر توزیع غالب باشند، اما قابلیت مدل‌سازی موارد نادر ضروری است. نقشه‌برداری ویژگی پیشنهادی و عادی‌سازی تصادفی (تبدیل توزیع‌های ویژگی اصلی به توزیع‌های یکنواخت بدون از دست دادن اطلاعات) کلید مدیریت چنین داده‌هایی با تبدیل به توزیع‌هایی هستند که آموزش رمزگذار-رمزگشا و GAN پایدارتر هستند (جزئیات را می‌توان در مقاله یافت. ). بازنمایی های نهفته نگاشت شده، که توسط رمزگذار ایجاد می شوند، سپس برای آموزش GAN استفاده می شوند. پس از آموزش چارچوب رمزگذار-رمزگشا و GAN ها، EHR-Safe می‌تواند داده‌های مصنوعی ناهمگن EHR را از هر ورودی تولید کند، که برای آن بردارهای نمونه‌گیری تصادفی را تغذیه می‌کنیم. توجه داشته باشید که فقط از ژنراتور و رمزگشاهای آموزش دیده برای تولید داده های مصنوعی استفاده می شود.

مجموعه داده ها

ما روی دو مجموعه داده EHR دنیای واقعی تمرکز می‌کنیم تا چارچوب EHR-Safe، MIMIC-III و eICU را به نمایش بگذاریم. هر دو مجموعه داده‌های بستری هستند که از طول‌های مختلف دنباله‌ها تشکیل شده‌اند و شامل چندین ویژگی عددی و دسته‌بندی با اجزای گمشده هستند.

نتایج وفاداری

معیارهای وفاداری بر کیفیت داده‌های مصنوعی تولید شده با اندازه‌گیری واقعی بودن داده‌های مصنوعی تمرکز می‌کنند. وفاداری بالاتر نشان می دهد که تمایز بین داده های مصنوعی و واقعی دشوارتر است. ما صحت داده های مصنوعی را از نظر تحلیل های کمی و کیفی متعدد ارزیابی می کنیم.

تجسم

داشتن پوشش مشابه و اجتناب از بازنمایی رژیم‌های داده خاص، هر دو برای تولید داده‌های مصنوعی مهم هستند. همانطور که تجزیه و تحلیل t-SNE زیر نشان می دهد، پوشش داده های مصنوعی (آبی) بسیار شبیه به داده های اصلی (قرمز) است. با معیارهای استنتاج عضویت (در بخش حریم خصوصی معرفی خواهد شد)، همچنین تأیید می‌کنیم که EHR-Safe فقط داده‌های قطار اصلی را به خاطر نمی‌سپارد.

تجزیه و تحلیل t-SNE بر روی داده های زمانی و استاتیک در MIMIC-III (بالا) و eICU (پایین تر) مجموعه داده ها.

شباهت آماری

ما مقایسه های کمی شباهت آماری بین داده های اصلی و مصنوعی را برای هر ویژگی ارائه می دهیم. اکثر آمارها به خوبی بین داده های اصلی و مصنوعی همسو هستند – برای مثال معیاری از آمار KS، به عنوان مثال،. حداکثر تفاوت در تابع توزیع تجمعی (CDF) بین داده های اصلی و مصنوعی، اغلب کمتر از 0.03 است. جداول دقیق تر را می توان در مقاله یافت. شکل زیر نمودارهای CDF را برای داده های اصلی در مقابل داده های مصنوعی برای سه ویژگی نشان می دهد – به طور کلی در بیشتر موارد آنها بسیار نزدیک به نظر می رسند.

نمودارهای CDF از دو ویژگی بین داده های EHR اصلی و مصنوعی. ترک کرد: فشار متوسط راه هوایی. درست: زنگ دقیقه صدا.

سودمند

از آنجا که یکی از مهم‌ترین موارد استفاده از داده‌های مصنوعی، نوآوری‌های ML است، ما بر معیار وفاداری تمرکز می‌کنیم که توانایی مدل‌های آموزش‌دیده بر روی داده‌های مصنوعی را برای پیش‌بینی دقیق روی داده‌های واقعی اندازه‌گیری می‌کند. ما چنین عملکرد مدل را با یک مدل معادل آموزش داده شده با داده های واقعی مقایسه می کنیم. عملکرد مدل مشابه نشان می‌دهد که داده‌های مصنوعی محتوای اطلاعاتی مربوطه را برای کار جمع‌آوری می‌کنند. به عنوان یکی از موارد استفاده بالقوه مهم از EHR، ما بر روی کار پیش بینی مرگ و میر تمرکز می کنیم. ما چهار مدل مختلف پیش‌بینی را در نظر می‌گیریم: گروه درختی تقویت‌کننده گرادیان (GBDT)، جنگل تصادفی (RF)، رگرسیون لجستیک (LR)، واحدهای بازگشتی دردار (GRU).

عملکرد پیش بینی مرگ و میر با مدل آموزش داده شده بر روی داده های واقعی در مقابل مصنوعی. ترک کرد: MIMIC-III. درست: eICU.

در شکل بالا می بینیم که در اکثر سناریوها، آموزش بر روی داده های مصنوعی و واقعی از نظر منحنی مشخصه های عملیاتی ناحیه زیر گیرنده (AUC) بسیار مشابه است. در MIMIC-III، بهترین مدل (GBDT) در داده های مصنوعی تنها 2.6٪ بدتر از بهترین مدل در داده های واقعی است. در حالی که در eICU، بهترین مدل (RF) در داده های مصنوعی تنها 0.9٪ بدتر است.

نتایج حریم خصوصی

ما سه حمله مختلف حریم خصوصی را برای تعیین کمیت استحکام داده‌های مصنوعی با توجه به حریم خصوصی در نظر می‌گیریم.

حمله استنتاج عضویت: یک حریف پیش بینی می کند که آیا یک موضوع شناخته شده در داده های آموزشی مورد استفاده برای آموزش مدل داده مصنوعی حضور داشته است یا خیر.
حمله شناسایی مجدد: دشمن احتمال شناسایی مجدد برخی از ویژگی ها را با استفاده از داده های مصنوعی و تطبیق با داده های آموزشی بررسی می کند.
حمله استنتاج ویژگی: حریف ارزش ویژگی های حساس را با استفاده از داده های مصنوعی پیش بینی می کند.

ارزیابی ریسک حریم خصوصی در سه معیار حریم خصوصی: استنتاج عضویت (بالا سمت چپشناسایی مجدد (بالا سمت راستو استنتاج صفت (پایین). ارزش ایده آل ریسک حریم خصوصی برای استنباط عضویت حدس تصادفی (0.5) است. برای شناسایی مجدد، حالت ایده‌آل جایگزینی داده‌های مصنوعی با داده‌های اصلی غیرمجاز است.

شکل بالا نتایج را به همراه مقدار ایده آل قابل دستیابی برای هر متریک خلاصه می کند. مشاهده می کنیم که معیارهای حریم خصوصی در همه موارد بسیار به ایده آل نزدیک است. خطر درک اینکه آیا نمونه ای از داده های اصلی عضوی است که برای آموزش مدل استفاده می شود یا خیر، به حدس زدن تصادفی بسیار نزدیک است. همچنین تأیید می کند که EHR-Safe فقط داده های اصلی قطار را به خاطر نمی سپارد. برای حمله استنتاج ویژگی، ما بر وظیفه پیش‌بینی استنباط ویژگی‌های خاص (به عنوان مثال، جنسیت، مذهب، و وضعیت تأهل) از سایر ویژگی‌ها تمرکز می‌کنیم. ما دقت پیش‌بینی را هنگام آموزش یک طبقه‌بندی با داده‌های واقعی با طبقه‌بندی‌کننده مشابه آموزش‌دیده با داده‌های مصنوعی مقایسه می‌کنیم. از آنجایی که نوارهای EHR-Safe همگی پایین‌تر هستند، نتایج نشان می‌دهد که دسترسی به داده‌های مصنوعی منجر به عملکرد پیش‌بینی بالاتر در ویژگی‌های خاص در مقایسه با دسترسی به داده‌های اصلی نمی‌شود.

مقایسه با روش های جایگزین

ما EHR-Safe را با گزینه‌های جایگزین (TimeGAN، RC-GAN، C-RNN-GAN) که برای تولید داده‌های مصنوعی سری زمانی پیشنهاد شده‌اند، مقایسه می‌کنیم. همانطور که در زیر نشان داده شده است، EHR-Safe به طور قابل توجهی بهتر از هر یک است.

عملکرد پایین دستی کار (AUC) در مقایسه با جایگزین ها.

نتیجه گیری

ما یک چارچوب مدل‌سازی مولد جدید، EHR-Safe، پیشنهاد می‌کنیم که می‌تواند داده‌های EHR مصنوعی بسیار واقعی را تولید کند که در برابر حملات حریم خصوصی قوی هستند. EHR-Safe مبتنی بر شبکه‌های متخاصم مولد است که روی داده‌های خام کدگذاری شده اعمال می‌شود. ما چندین نوآوری در معماری و مکانیسم‌های آموزشی معرفی می‌کنیم که با چالش‌های کلیدی داده‌های EHR ایجاد می‌شوند. این نوآوری‌ها کلید نتایج ما هستند که ویژگی‌های تقریباً یکسانی را با داده‌های واقعی نشان می‌دهند (زمانی که قابلیت‌های پایین دستی مورد نظر در نظر گرفته می‌شوند) با حفظ حریم خصوصی تقریباً ایده‌آل. یک جهت مهم در آینده، قابلیت مدل‌سازی مولد برای داده‌های چندوجهی، از جمله متن و تصویر است، زیرا داده‌های EHR مدرن ممکن است حاوی هر دو باشد.

سپاسگزاریها

ما از کمک های میشل میزراهی، ناهید فرهادی قلاتی، توماس جاروینن، اشوین اس. راوی، پیتر برون، فانیو کونگ، دیو اندرسون، جورج لی، آری مایر، فرهانا باندوکوالا، الی کانال و توماس پیستر سپاسگزاریم.

سئو PBN | خبر های جدید سئو و هک و سرور