آموزش انتقال ساده برای توسعه مدل رادیوگرافی قفسه سینه

هر سال، نزدیک به یک میلیارد تصویر اشعه ایکس قفسه سینه (CXR) در سطح جهان برای کمک به تشخیص و مدیریت شرایط سلامتی از فروپاشی ریه تا بیماری‌های عفونی گرفته می‌شود. به طور کلی، CXR ها ارزان تر و در دسترس تر از سایر اشکال تصویربرداری پزشکی هستند. با این حال، چالش های موجود همچنان مانع استفاده بهینه از CXR ها می شود. به عنوان مثال، در برخی مناطق، رادیولوژیست های آموزش دیده که می توانند تصاویر CXR را به طور دقیق تفسیر کنند، کمبود دارند. علاوه بر این، تنوع تفسیر بین کارشناسان، تفاوت‌های گردش کار بین مؤسسات، و وجود شرایط نادری که فقط برای متخصصان فوق‌متخصص آشنا هستند، همگی باعث می‌شوند که تفسیر CXR با کیفیت بالا به چالشی تبدیل شود.

تحقیقات اخیر از یادگیری ماشینی (ML) برای کشف راه حل های بالقوه برای برخی از این چالش ها استفاده کرده است. علاقه و تلاش قابل توجهی به ساخت مدل‌های یادگیری عمیق اختصاص داده شده است که ناهنجاری‌ها را در CXR‌ها تشخیص می‌دهند و دسترسی، دقت و کارایی را برای شناسایی بیماری‌ها و شرایطی که بر قلب و ریه‌ها تأثیر می‌گذارند، بهبود می‌بخشند. با این حال، ساخت مدل‌های قوی CXR به مجموعه داده‌های آموزشی برچسب‌گذاری‌شده بزرگی نیاز دارد که ایجاد آن‌ها می‌تواند بسیار گران و زمان‌بر باشد. در برخی موارد، مانند کار با جمعیت‌های کم‌تعداد یا مطالعه شرایط پزشکی نادر، فقط داده‌های محدودی در دسترس است. علاوه بر این، کیفیت تصاویر CXR در بین جمعیت‌ها، مناطق جغرافیایی و مؤسسات متفاوت است و ساخت مدل‌های قوی که عملکرد خوبی در سطح جهانی دارند دشوار می‌کند.

در “آموزش انتقال ساده برای مدل های رادیوگرافی قفسه سینه با استفاده از داده های کمتر” منتشر شده در مجله رادیولوژی، ما توضیح می دهیم که چگونه Google Health از روش های پیشرفته ML برای تولید “شبکه های CXR” از پیش آموزش دیده استفاده می کند که می تواند تصاویر CXR را به جاسازی ها (یعنی بردارهای عددی غنی از اطلاعات) تبدیل کند تا امکان توسعه مدل های CXR را با استفاده از داده های کمتر و منابع محاسباتی کمتر فراهم کند. ما نشان می‌دهیم که حتی با داده‌ها و محاسبات کمتر، این رویکرد عملکرد قابل‌مقایسه با مدل‌های یادگیری عمیق پیشرفته را در کارهای مختلف پیش‌بینی می‌کند. ما همچنین هیجان زده هستیم که انتشار آن را اعلام کنیم بنیاد CXR، ابزاری است که از شبکه مخصوص CXR ما استفاده می کند تا توسعه دهندگان را قادر می سازد تا جاسازی های سفارشی را برای تصاویر CXR خود ایجاد کنند. ما معتقدیم این کار به تسریع توسعه مدل‌های CXR، کمک به تشخیص بیماری و کمک به دسترسی عادلانه‌تر به سلامت در سراسر جهان کمک می‌کند.

توسعه شبکه اشعه ایکس قفسه سینه

یک رویکرد رایج برای ساخت مدل‌های ML پزشکی این است که یک مدل در یک کار عمومی با استفاده از مجموعه داده‌های غیرپزشکی از قبل آموزش داده شود و سپس مدل در یک کار پزشکی هدف اصلاح شود. این فرآیند انتقال یادگیری ممکن است عملکرد وظیفه هدف را بهبود بخشد یا حداقل با اعمال درک تصاویر طبیعی در تصاویر پزشکی، همگرایی را سرعت بخشد. با این حال، یادگیری انتقال همچنان ممکن است به مجموعه داده های پزشکی برچسب گذاری شده بزرگ برای مرحله اصلاح نیاز داشته باشد.

با گسترش این رویکرد استاندارد، سیستم ما از مدل‌سازی وظایف خاص CXR از طریق یک راه‌اندازی آموزش مدل سه مرحله‌ای متشکل از (1) پیش‌آموزش تصویر عمومی مشابه یادگیری سنتی انتقال، (2) پیش‌آموزش خاص CXR، و ( 3) آموزش ویژه کار. مرحله اول و سوم در ML رایج است: ابتدا پیش آموزش روی یک مجموعه داده بزرگ و برچسب هایی که مختص کار مورد نظر نیستند و سپس تنظیم دقیق کار مورد علاقه.

ما یک طبقه‌بندی تصویر مخصوص CXR ساختیم که از یادگیری کنتراست نظارت شده (SupCon) استفاده می‌کند. SupCon نمایش تصاویری را که دارای برچسب یکسانی هستند (مثلاً غیرعادی) را کنار هم می‌کشد و نمایش‌هایی از تصاویری را که دارای برچسب متفاوتی هستند (مثلاً یک تصویر عادی و یک تصویر غیرعادی) از هم جدا می‌کند. ما این مدل را بر روی مجموعه داده‌های CXR شناسایی‌نشده از بیش از 800000 تصویر که با مشارکت Northwestern Medicine و Apollo Hospitals در ایالات متحده و هند تولید شده‌اند، از قبل آموزش دادیم. سپس از برچسب‌های ناهنجاری نویزدار از پردازش زبان طبیعی گزارش‌های رادیولوژی استفاده کردیم تا شبکه «ویژه CXR» خود را بسازیم.

این شبکه جاسازی‌هایی ایجاد می‌کند (به عنوان مثال، بردارهای عددی غنی از اطلاعات که می‌توانند برای تشخیص کلاس‌ها از یکدیگر استفاده شوند) که می‌توانند به راحتی مدل‌ها را برای کارهای خاص پیش‌بینی پزشکی، مانند یافتن تصویر (به عنوان مثال، کدورت فضای هوایی)، شرایط بالینی (مثلاً) آموزش دهند. ، سل) یا نتیجه بیمار (مثلاً بستری شدن در بیمارستان). برای مثال، شبکه CXR می‌تواند برای هر تصویر در مجموعه داده‌های CXR، جاسازی‌هایی ایجاد کند. برای این تصاویر، تعبیه‌های ایجاد شده و برچسب‌های وظیفه مورد نظر (مانند سل) به عنوان نمونه‌ای برای آموزش یک مدل ML کوچک استفاده می‌شوند.

ترک کرد: آموزش یک مدل CXR برای یک کار معین به طور کلی به تعداد زیادی تصاویر برچسب دار و مقدار قابل توجهی از منابع محاسباتی برای ایجاد پایه ای از لایه های شبکه عصبی نیاز دارد. درست: با شبکه و ابزار CXR که این پایه را فراهم می کند، هر کار جدید در مقایسه با بازسازی کل شبکه از ابتدا، تنها به کسری از تصاویر برچسب گذاری شده، منابع محاسباتی و پارامترهای شبکه عصبی نیاز دارد.

اثرات CXR قبل از تمرین

ما این لایه های تعبیه شده را در هر مرحله از فرآیند با استفاده از کدورت فضای هوایی به عنوان مثال تجسم کردیم (شکل زیر را ببینید). قبل از پیش‌آموزش مبتنی بر SupCon، تفکیک ضعیفی از تعبیه‌های CXR معمولی و غیر طبیعی وجود داشت. پس از پیش‌آموزش مبتنی بر SupCon، نمونه‌های مثبت بیشتر با هم گروه‌بندی شدند و نمونه‌های منفی نیز نزدیک‌تر با هم گروه‌بندی شدند، که نشان می‌دهد مدل تشخیص داده است که تصاویر هر دسته شبیه خودشان هستند.

تجسم جاسازی تصادفی همسایه t-توزیع شده برای جاسازی های شبکه عمومی در مقابل CXR خاص. Embedding ها بردارهای عددی غنی از اطلاعات هستند که به تنهایی می توانند کلاس ها را از یکدیگر متمایز کنند، در این مورد کدورت فضای هوایی مثبت در مقابل منفی است.

تحقیقات ما نشان می‌دهد که افزودن مرحله دوم پیش‌آموزش، مدل‌های باکیفیت را قادر می‌سازد تا با ۶۰۰ برابر داده‌های کمتر در مقایسه با رویکردهای یادگیری انتقال سنتی که از مدل‌های از پیش آموزش‌دیده بر روی مجموعه داده‌های عمومی و غیرپزشکی استفاده می‌کنند، آموزش ببینند. ما متوجه شدیم که این بدون توجه به معماری مدل (مثلا ResNet یا EfficientNet) یا مجموعه داده‌های مورد استفاده برای پیش‌آموزش تصویر طبیعی (مانند ImageNet یا JFT-300M) درست است. با این رویکرد، محققان و توسعه دهندگان می توانند به میزان قابل توجهی نیاز به اندازه مجموعه داده را کاهش دهند.

بالا: در یک مدل یادگیری عمیق، شبکه عصبی حاوی چندین لایه از نورون های مصنوعی است که اولین لایه تصویر CXR را به عنوان ورودی می گیرد، لایه های میانی محاسبات اضافی را انجام می دهند و لایه نهایی طبقه بندی را انجام می دهد (مثلاً کدورت فضای هوایی: حال در مقابل. غایب). لایه تعبیه معمولاً یکی از آخرین لایه ها است. پایین سمت چپ: رویکرد یادگیری انتقال سنتی شامل یک راه‌اندازی آموزشی دو مرحله‌ای است که در آن یک شبکه عمومی از پیش آموزش دیده مستقیماً بر روی یک کار پیش‌بینی مورد علاقه بهینه می‌شود. راه‌اندازی آموزش سه مرحله‌ای پیشنهادی ما یک شبکه CXR را با استفاده از تکنیک SupCon ML (مرحله ۲) قبل از بهینه‌سازی برای کارهای پیش‌بینی مورد علاقه (مرحله ۳) ایجاد می‌کند. سمت راست پایین: استفاده از جاسازی ها شامل آموزش مدل های کوچکتر (دو استراتژی اول) یا تنظیم دقیق کل شبکه در صورت وجود داده های کافی است (استراتژی 3).

نتایج

پس از آموزش مدل اولیه، ما عملکرد را با استفاده از متریک سطح زیر منحنی (AUC) با هر دو مدل خطی و غیر خطی اعمال شده برای جاسازی‌های CXR اندازه‌گیری کردیم. و یک مدل غیر خطی تولید شده با تنظیم دقیق کل شبکه. در مجموعه داده‌های عمومی، مانند ChestX-ray14 و CheXpert، کار ما به طور قابل توجهی و پیوسته باعث بهبود مبادله دقت داده‌ها برای مدل‌های توسعه‌یافته در طیف وسیعی از اندازه‌های مجموعه داده آموزشی و چندین یافته شد. به عنوان مثال، هنگام ارزیابی توانایی این ابزار برای توسعه مدل‌های سل، دستاوردهای بازده داده‌ها چشمگیرتر بود: مدل‌هایی که بر روی تعبیه‌های تنها 45 تصویر آموزش دیده بودند، نسبت به رادیولوژیست‌ها در تشخیص سل بر روی یک مجموعه داده اعتبارسنجی خارجی، حقارت ندارند. برای هر دو بیماری سل و پیامدهای شدید COVID-19، ما نشان می‌دهیم که طبقه‌بندی‌کننده‌های غیرخطی آموزش‌دیده بر روی جاسازی‌های منجمد از مدلی که به‌خوبی در کل مجموعه داده تنظیم شده بود، عملکرد بهتری داشتند.

مقایسه شبکه های خاص CXR برای یادگیری انتقال (قرمز، با رویکرد یادگیری انتقال پایه (آبی) در انواع ناهنجاری های CXR (بالا سمت چپ)، بیماری سل (پایین سمت چپو پیامدهای COVID-19 (سمت راست پایین). این رویکرد عملکرد را در اندازه مجموعه داده یکسان بهبود می بخشد، یا اندازه مجموعه داده مورد نیاز برای رسیدن به همان عملکرد را کاهش می دهد. جالب توجه است، استفاده از شبکه CXR با مدل‌های ساده‌تر ML که آموزش سریع‌تر دارند (قرمز) بهتر از آموزش شبکه کامل (سیاه) در اندازه های داده تا 85 تصاویر.

نتیجه گیری و کار آینده

برای تسریع تلاش‌های مدل‌سازی CXR با داده‌های کم و نیازمندی‌های محاسباتی، ابزار CXR Foundation خود را به همراه اسکریپت‌هایی برای آموزش طبقه‌بندی‌کننده‌های خطی و غیرخطی منتشر می‌کنیم. از طریق این جاسازی‌ها، این ابزار به محققان اجازه می‌دهد تا تلاش‌های مدل‌سازی CXR را با استفاده از روش‌های یادگیری انتقال ساده‌تر آغاز کنند. این رویکرد می‌تواند به ویژه برای مدل‌سازی پیش‌بینی‌کننده با استفاده از مجموعه داده‌های کوچک، و برای انطباق مدل‌های CXR زمانی که تغییرات توزیع در جمعیت‌های بیماران (چه در طول زمان یا در موسسات مختلف) وجود دارد، مفید باشد. ما هیجان زده هستیم که به همکاری با شرکای خود مانند Northwestern Medicine و Apollo Hospitals ادامه دهیم تا تأثیر این فناوری را بیشتر بررسی کنیم. با فعال کردن محققان با داده‌های محدود و محاسبات برای توسعه مدل‌های CXR، امیدواریم توسعه‌دهندگان بیشتری بتوانند تأثیرگذارترین مشکلات را برای جمعیت خود حل کنند.

سپاسگزاریها

مشارکت کنندگان کلیدی در این پروژه در گوگل عبارتند از: کریستینا چن، یون لیو، دیلیپ کریشنان، زید نابولسی، آتیلا کرالی، آرناو آغاروال، اریک وو، یوانژن لی، آرون ماشینوت، آرون سارنا، جنی هوانگ، مرلین ژانگ، چارلز لاو، نیرال بلادیا، دانیل تسه، کریش اسواران و شرویا شتی. مشارکت‌ها و ورودی‌های مهمی نیز توسط همکاران Sreenivasa Raju Kalidindi، Mozziyar Etemadi، Florencia Garcia-Vicente و David Melnick انجام شد. برای مجموعه داده ChestX-ray14، ما از مرکز بالینی NIH برای در دسترس قرار دادن آن برای عموم تشکر می‌کنیم. نویسندگان همچنین مایلند از بسیاری از اعضای تیم‌های نرم‌افزار رادیولوژی و برچسب‌گذاری Google Health قدردانی کنند. همچنین از رادیولوژیست هایی که این کار را با تلاش های خود برای تفسیر تصویر و حاشیه نویسی در طول مطالعه فعال کردند، صمیمانه قدردانی می کنیم. Jonny Wong برای هماهنگی کار حاشیه نویسی تصویربرداری؛ کریگ مرمل و آکینوری میتانی برای ارائه بازخورد در مورد نسخه خطی. نیکول لینتون و لورن وینر برای بازخورد در مورد پست وبلاگ؛ و تام اسمال برای انیمیشن.