SCIN: منبعی جدید برای تصاویر نمایانگر پوست

مجموعه داده های سلامت نقش مهمی در تحقیق و آموزش پزشکی ایفا می کنند، اما ایجاد مجموعه داده ای که دنیای واقعی را نشان می دهد می تواند چالش برانگیز باشد. به عنوان مثال، شرایط پوستی از نظر ظاهر و شدت متفاوت است و در رنگ های پوست متفاوت ظاهر می شود. با این حال، مجموعه داده‌های تصاویر پوستی موجود اغلب فاقد شرایط روزمره (مانند راش، آلرژی و عفونت) هستند و به سمت رنگ‌های روشن‌تر پوست متمایل می‌شوند. علاوه بر این، اطلاعات مربوط به نژاد و قومیت اغلب ناپدید می‌شود، که مانع از توانایی ما برای ارزیابی تفاوت‌ها یا ایجاد راه‌حل می‌شود.

برای رفع این محدودیت‌ها، مجموعه داده شبکه تصویر وضعیت پوست (SCIN) را با همکاری پزشکان در پزشکی استنفورد منتشر می‌کنیم. ما SCIN را طراحی کردیم تا منعکس کننده طیف وسیعی از نگرانی‌هایی باشد که افراد به صورت آنلاین جستجو می‌کنند و انواع شرایطی که معمولاً در مجموعه داده‌های بالینی یافت می‌شوند را تکمیل می‌کند. این شامل تصاویری از رنگ‌های مختلف پوست و قسمت‌های بدن است که به اطمینان از اینکه ابزارهای هوش مصنوعی آینده به طور موثر برای همه کار می‌کنند، کمک می‌کند. ما مجموعه داده SCIN را به‌صورت رایگان به‌عنوان منبعی با دسترسی آزاد برای محققان، مربیان و توسعه‌دهندگان در دسترس قرار داده‌ایم و اقدامات دقیقی برای محافظت از حریم خصوصی مشارکت‌کنندگان انجام داده‌ایم.

مجموعه نمونه ای از تصاویر و ابرداده از مجموعه داده SCIN.

ترکیب مجموعه داده

مجموعه داده SCIN در حال حاضر شامل بیش از 10000 تصویر از شرایط پوست، ناخن یا مو است که مستقیماً توسط افرادی که آنها را تجربه کرده اند، ارائه شده است. همه مشارکت‌ها به‌طور داوطلبانه و با رضایت آگاهانه توسط افراد در ایالات متحده، تحت یک مطالعه تأیید شده توسط هیئت بازبینی سازمانی انجام شد. برای ارائه زمینه ای برای برچسب گذاری گذشته نگر متخصص پوست، از مشارکت کنندگان خواسته شد که هم از نزدیک و هم از فاصله کمی دورتر عکس بگیرند. به آن‌ها این امکان داده شد که اطلاعات جمعیت‌شناختی و تمایل به برنزه شدن را گزارش دهند (نوع پوست فیتزپاتریک خود گزارش شده، به عنوان مثال، sFST)، و بافت، مدت و علائم مربوط به نگرانی خود را توصیف کنند.

یک تا سه متخصص پوست هر سهم را با حداکثر پنج بیماری پوستی، همراه با یک امتیاز اطمینان برای هر برچسب برچسب گذاری کردند. مجموعه داده SCIN شامل این برچسب‌ها و همچنین یک تشخیص افتراقی جمع‌آوری شده و وزنی است که از آنها به دست می‌آید که می‌تواند برای آزمایش یا آموزش مدل مفید باشد. این برچسب‌ها به صورت گذشته‌نگر اختصاص داده شدند و معادل تشخیص بالینی نیستند، اما به ما اجازه می‌دهند توزیع شرایط پوستی در مجموعه داده SCIN را با مجموعه داده‌های موجود مقایسه کنیم.

مجموعه داده‌های SCIN عمدتاً شامل شرایط آلرژیک، التهابی و عفونی است در حالی که مجموعه داده‌های منابع بالینی روی نئوپلاسم‌های خوش‌خیم و بدخیم تمرکز دارند.

در حالی که بسیاری از مجموعه داده های پوستی موجود بر روی تومورهای بدخیم و خوش خیم تمرکز دارند و برای کمک به تشخیص سرطان پوست در نظر گرفته شده اند، مجموعه داده های SCIN عمدتاً از شرایط رایج آلرژیک، التهابی و عفونی تشکیل شده است. اکثر تصاویر موجود در مجموعه داده SCIN نگرانی‌های اولیه را نشان می‌دهند – بیش از نیمی از آنها کمتر از یک هفته قبل از عکس و 30٪ کمتر از یک روز قبل از گرفتن عکس ایجاد شده‌اند. شرایط در این بازه زمانی به ندرت در سیستم سلامت دیده می شود و بنابراین در مجموعه داده های پوستی موجود کمتر نشان داده می شود.

ما همچنین تخمین‌های متخصص پوست از نوع پوست فیتزپاتریک (تخمینی FST یا eFST) و تخمین‌های برچسب‌گذار غیر متخصص پوست Monk Skin (eMST) را برای تصاویر به دست آوردیم. این امکان مقایسه وضعیت پوست و توزیع نوع پوست را با موارد موجود در مجموعه داده های پوستی موجود فراهم کرد. اگرچه ما به طور انتخابی هیچ نوع پوست یا رنگ پوستی را هدف قرار ندادیم، مجموعه داده SCIN دارای توزیع متوازن نوع پوست فیتزپاتریک (با تعداد بیشتری از انواع 3، 4، 5، و 6) در مقایسه با مجموعه داده های مشابه از منابع بالینی است.

توزیع نوع پوست فیتزپاتریک خود گزارش و توسط متخصص پوست در مجموعه داده SCIN در مقایسه با مجموعه داده های پوستی غنی نشده موجود (Fitzpatrick17k، PH²، SKINL2، و PAD-UFES-20) گزارش شده است.

مقیاس نوع پوست فیتزپاتریک در ابتدا به عنوان مقیاس عکس تایپ برای اندازه گیری پاسخ انواع پوست به اشعه ماوراء بنفش ساخته شد و به طور گسترده در تحقیقات پوست استفاده می شود. مقیاس رنگ پوست Monk یک مقیاس 10 سایه جدیدتر است که به جای فتوتیپ پوست، رنگ پوست را اندازه گیری می کند و تفاوت های ظریف تری را بین رنگ های تیره پوست نشان می دهد. در حالی که هیچ یک از مقیاس‌ها برای تخمین گذشته‌نگر با استفاده از تصاویر در نظر گرفته نشده بودند، گنجاندن این برچسب‌ها برای فعال کردن تحقیقات آینده در مورد نوع و رنگ پوست در پوست در نظر گرفته شده است. به عنوان مثال، مجموعه داده SCIN یک معیار اولیه برای توزیع این نوع پوست و رنگ پوست در جمعیت ایالات متحده ارائه می دهد.

مجموعه داده SCIN دارای نمایش بالایی از زنان و افراد جوان است که احتمالاً منعکس کننده ترکیبی از عوامل است. اینها می تواند شامل تفاوت در بروز بیماری پوستی، تمایل به جستجوی اطلاعات سلامت آنلاین، و تفاوت در تمایل به مشارکت در تحقیقات در بین جمعیت شناسی باشد.

روش جمع سپاری

برای ایجاد مجموعه داده SCIN، از یک روش جدید جمع‌سپاری استفاده کردیم که در مقاله تحقیقاتی همراه با محققان در پزشکی استنفورد توضیح می‌دهیم. این رویکرد افراد را قادر می سازد تا نقش فعالی در تحقیقات مراقبت های بهداشتی ایفا کنند. به ما این امکان را می دهد که در مراحل اولیه نگرانی های سلامتی افراد، به طور بالقوه قبل از اینکه به دنبال مراقبت رسمی باشند، ارتباط برقرار کنیم. مهمتر از همه، این روش از تبلیغات در صفحات نتایج جستجوی وب – نقطه شروع سفر سلامت بسیاری از افراد – برای ارتباط با شرکت کنندگان استفاده می کند.

نتایج ما نشان می‌دهد که جمع‌سپاری می‌تواند مجموعه داده‌ای با کیفیت بالا با نرخ هرزنامه پایین به دست آورد. بیش از 97.5 درصد از مشارکت ها تصاویر واقعی از شرایط پوستی بودند. پس از انجام مراحل فیلتر کردن بیشتر برای حذف تصاویری که خارج از محدوده مجموعه داده SCIN و حذف موارد تکراری بودند، توانستیم نزدیک به 90٪ از مشارکت های دریافتی در طول دوره مطالعه 8 ماهه را منتشر کنیم. بیشتر تصاویر واضح و با نوردهی خوب بودند. تقریباً نیمی از مشارکت‌ها شامل دموگرافیک گزارش‌شده توسط خود است و 80 درصد حاوی اطلاعات گزارش‌شده شخصی مربوط به وضعیت پوست، مانند بافت، مدت، یا علائم دیگر است. ما دریافتیم که توانایی متخصصین پوست برای تعیین گذشته‌نگر تشخیص افتراقی بیشتر به در دسترس بودن اطلاعات گزارش‌شده توسط خود بستگی دارد تا کیفیت تصویر.

اعتماد متخصص پوست به برچسب آنها (مقیاس 1-5) به در دسترس بودن اطلاعات جمعیت شناختی و علائم خود گزارش شده بستگی دارد.

در حالی که شناسایی کامل تصویر هرگز نمی تواند تضمین شود، محافظت از حریم خصوصی افرادی که تصاویر خود را ارائه کرده اند در هنگام ایجاد مجموعه داده SCIN اولویت اصلی بود. از طریق رضایت آگاهانه، مشارکت کنندگان از خطرات احتمالی شناسایی مجدد آگاه شدند و به آنها توصیه شد از آپلود تصاویر با ویژگی های شناسایی خودداری کنند. اقدامات حفاظت از حریم خصوصی پس از ارسال شامل ویرایش یا برش دستی برای حذف مناطق بالقوه شناسایی، جستجوهای عکس معکوس برای حذف کپی‌های در دسترس عموم و حذف یا تجمع فراداده بود. مجوز استفاده از داده های SCIN، تلاش برای شناسایی مجدد مشارکت کنندگان را ممنوع می کند.

امیدواریم مجموعه داده SCIN منبع مفیدی برای کسانی باشد که برای پیشبرد تحقیقات فراگیر درماتولوژی، آموزش و توسعه ابزار هوش مصنوعی تلاش می کنند. با نشان دادن جایگزینی برای روش‌های سنتی ایجاد مجموعه داده‌ها، SCIN راه را برای مجموعه داده‌های نماینده بیشتر در مناطقی که داده‌های گزارش‌دهی شخصی یا برچسب‌گذاری گذشته‌نگر امکان‌پذیر است، هموار می‌کند.

سپاسگزاریها

ما از همه نویسندگان همکارمان ابی وارد، جیمی لی، جولی وانگ، سریرام لاکشمیناراسیمهان، اشلی کریک، بیلسون کامپانا، جی هارتفورد، پرادیپ کومار اس، تیا تیاسیریسوکچای، سانی ویرمانی، رنه وانگ، یوسی اس ماتیاس، گردوگ سپاسگزاریم. ، دیل آر وبستر، داون سیگل (پزشکی استنفورد)، استیون لین (پزشکی استنفورد)، جاستین کو (پزشکی استنفورد)، آلن کارتیکسالینگام و کریستوفر سمتورز. ما همچنین از Yetunde Ibitoye، Sami Lachgar، Lisa Lehmann، Javier Perez، Margaret Ann Smith (Stanford Medicine)، Rachelle Sico، Amit Talreja، Annisah Um'rani و Wayne Westerlind برای کمک های اساسی آنها در این کار تشکر می کنیم. در نهایت، ما از هدر کول-لوئیس، نااما همل، آیور هورن، مایکل هاول، یون لیو و اریک تیزلی به خاطر نظرات روشنگرانه آنها در مورد طرح مطالعه و نسخه خطی سپاسگزاریم.