HEAL: چارچوبی برای ارزیابی برابری سلامت عملکرد یادگیری ماشین

برابری سلامت با نابرابری‌هایی که دلایل زیادی دارد، یک نگرانی عمده اجتماعی در سراسر جهان است. این منابع شامل محدودیت در دسترسی به مراقبت های بهداشتی، تفاوت در درمان بالینی و حتی تفاوت های اساسی در فناوری تشخیصی است. به عنوان مثال، در درماتولوژی، پیامدهای سرطان پوست برای جمعیت هایی مانند اقلیت ها، افرادی که وضعیت اجتماعی-اقتصادی پایین تری دارند، یا افرادی که دسترسی محدود به مراقبت های بهداشتی دارند، بدتر است. در حالی که در پیشرفت‌های اخیر در یادگیری ماشین (ML) و هوش مصنوعی (AI) برای کمک به بهبود مراقبت‌های بهداشتی وعده‌های زیادی وجود دارد، این انتقال از تحقیقات به کنار تخت باید با درک دقیقی از اینکه آیا و چگونه آنها بر عدالت سلامت تأثیر می‌گذارند همراه باشد.

برابری سلامت توسط سازمان های بهداشت عمومی به عنوان عادلانه فرصت برای همه افراد برای سالم بودن تا حد امکان تعریف شده است. مهمتر از همه، حقوق صاحبان سهام ممکن است متفاوت باشد برابری. به عنوان مثال، افرادی که موانع بیشتری برای بهبود سلامت خود دارند، ممکن است به تلاش بیشتر یا متفاوتی برای تجربه این فرصت منصفانه نیاز داشته باشند. به طور مشابه، حقوق صاحبان سهام نیست انصاف همانطور که در AI برای ادبیات مراقبت های بهداشتی تعریف شده است. در حالی که عدالت هوش مصنوعی اغلب برای عملکرد یکسان فناوری هوش مصنوعی در میان جمعیت‌های مختلف بیماران تلاش می‌کند، این هدف اولویت‌بندی عملکرد با توجه به نابرابری‌های بهداشتی از قبل موجود نیست.

ملاحظات برابری سلامت یک مداخله (به عنوان مثال، یک ابزار مبتنی بر ML، که با رنگ آبی تیره نشان داده شده است) اگر به کاهش نابرابری های موجود در نتایج سلامت کمک کند (با رنگ آبی روشن تر نشان داده شده است) برابری سلامت را ارتقا می دهد.

در “ارزیابی برابری سلامت عملکرد یادگیری ماشینی (HEAL): چارچوب و مطالعه موردی مدل هوش مصنوعی پوستی، منتشر شده در Lancet eClinical Medicine، ما یک روش برای ارزیابی کمی پیشنهاد می کنیم که آیا فناوری های بهداشتی مبتنی بر ML به طور عادلانه عمل می کنند یا خیر. به عبارت دیگر، آیا مدل ML برای کسانی که بدترین پیامدهای سلامتی را برای شرایطی که مدل قرار است به آن رسیدگی کند، عملکرد خوبی دارد؟ این هدف بر این اصل استوار است که برابری سلامت باید عملکرد مدل را با توجه به نتایج متفاوت سلامت، که ممکن است به دلیل تعدادی از عوامل شامل نابرابری‌های ساختاری (مانند جمعیت‌شناختی، اجتماعی، فرهنگی، سیاسی، اقتصادی، محیطی و جغرافیایی).

چارچوب عدالت سلامت (HEAL)

چارچوب HEAL یک فرآیند 4 مرحله‌ای را برای برآورد احتمال عملکرد عادلانه یک فناوری سلامت مبتنی بر ML پیشنهاد می‌کند:

  1. شناسایی عوامل مرتبط با نابرابری های سلامت و تعریف معیارهای عملکرد ابزار،

  2. شناسایی و تعیین کمیت نابرابری های بهداشتی از قبل موجود،

  3. اندازه گیری عملکرد ابزار برای هر زیرجمعیت،

  4. احتمال اینکه این ابزار عملکرد را با توجه به نابرابری‌های سلامتی در اولویت قرار دهد، اندازه‌گیری کنید.

خروجی مرحله نهایی متریک HEAL نامیده می‌شود که نشان می‌دهد عملکرد مدل ML تا چه حد با نابرابری‌های سلامتی ضد همبستگی است. به عبارت دیگر، آیا این مدل با جمعیت هایی که پیامدهای سلامت بدتری دارند بهتر عمل می کند؟

این فرآیند 4 مرحله‌ای برای اطلاع از بهبودها برای عادلانه‌تر کردن عملکرد مدل ML طراحی شده است، و قرار است به طور منظم تکرار شود و مجدداً ارزیابی شود. برای مثال، در دسترس بودن داده‌های پیامدهای سلامت در مرحله (2) می‌تواند انتخاب عوامل جمعیت‌شناختی و براکت‌ها در مرحله (1) را مشخص کند، و چارچوب را می‌توان دوباره با مجموعه‌های داده، مدل‌ها و جمعیت‌های جدید اعمال کرد.

چارچوبی برای ارزیابی عدالت سلامت عملکرد یادگیری ماشین (HEAL). اصل راهنمای ما اجتناب از تشدید نابرابری های سلامت است و این مراحل به ما کمک می کند تا نابرابری ها را شناسایی کرده و عملکرد مدل ناعادلانه را ارزیابی کنیم تا به سمت نتایج بهتر برای همه حرکت کنیم.

با این کار، ما گامی به سمت تشویق ارزیابی صریح ملاحظات برابری سلامت در فناوری‌های هوش مصنوعی برمی‌داریم و اولویت‌بندی تلاش‌ها را در طول توسعه مدل برای کاهش نابرابری‌های سلامت برای زیرجمعیت‌هایی که در معرض نابرابری‌های ساختاری هستند تشویق می‌کنیم که می‌تواند نتایج متفاوتی را ایجاد کند. باید توجه داشته باشیم که چارچوب حاضر روابط علی را مدل نمی‌کند و بنابراین، نمی‌تواند تأثیر واقعی یک فناوری جدید بر کاهش نابرابری‌های پیامدهای سلامتی را تعیین کند. با این حال، معیار HEAL ممکن است به شناسایی فرصت‌های بهبود کمک کند، جایی که عملکرد فعلی با توجه به نابرابری‌های بهداشتی از قبل در اولویت قرار نمی‌گیرد.

مطالعه موردی در یک مدل پوستی

به عنوان یک مطالعه موردی گویا، ما این چارچوب را برای یک مدل پوستی اعمال کردیم که از یک شبکه عصبی کانولوشنال مشابه آنچه در کار قبلی توضیح داده شد استفاده می‌کند. این مدل درماتولوژی نمونه برای طبقه‌بندی ۲۸۸ بیماری پوستی با استفاده از مجموعه داده توسعه‌ای از ۲۹ هزار مورد آموزش داده شد. ورودی مدل شامل سه عکس از یک مشکل پوستی به همراه اطلاعات دموگرافیک و یک تاریخچه پزشکی ساختار یافته است. خروجی شامل یک لیست رتبه بندی شده از شرایط پوستی مشابه است.

با استفاده از چارچوب HEAL، ما این مدل را با ارزیابی اینکه آیا عملکرد را با توجه به پیامدهای سلامتی از قبل در اولویت قرار می دهد، ارزیابی کردیم. این مدل برای پیش‌بینی شرایط پوستی احتمالی (از لیست صدها نفر) بر اساس عکس‌های مربوط به یک نگرانی پوستی و فراداده‌های بیمار طراحی شده است. ارزیابی مدل با استفاده از یک متریک توافق بالا 3 انجام می‌شود، که کمیت می‌دهد که هر چند وقت یک‌بار 3 شرایط خروجی برتر با محتمل‌ترین شرایط مطابقت دارند که توسط یک پانل متخصص پوست پیشنهاد شده است. متریک HEAL از طریق ضد همبستگی این توافقنامه برتر 3 با رتبه‌بندی نتایج سلامت محاسبه می‌شود.

ما از مجموعه داده‌ای متشکل از 5420 مورد از راه دور درماتولوژی، غنی‌شده برای تنوع در سن، جنس و نژاد/قومیت برای ارزیابی گذشته‌نگر معیار HEAL مدل استفاده کردیم. مجموعه داده شامل موارد “ذخیره و ارسال” از بیماران 20 ساله یا بالاتر از ارائه دهندگان مراقبت های اولیه در ایالات متحده و کلینیک های سرطان پوست در استرالیا بود. بر اساس بررسی متون، ما تصمیم گرفتیم که نژاد/قومیت، جنس و سن را به عنوان عوامل بالقوه نابرابری بررسی کنیم و از تکنیک های نمونه گیری استفاده کردیم تا اطمینان حاصل کنیم که مجموعه داده ارزیابی ما دارای نمایش کافی از همه نژاد/قومیت، جنس و گروه های سنی است. برای تعیین کمیت پیامدهای سلامت از قبل موجود برای هر زیرگروه، ما به اندازه‌گیری‌های پایگاه‌های داده عمومی تأیید شده توسط سازمان بهداشت جهانی، مانند سال‌های از دست رفته زندگی (YLLs) و سال‌های زندگی تعدیل‌شده با ناتوانی (DALYs؛ سال‌های از دست رفته زندگی به اضافه سال‌های زندگی با آن‌ها تکیه کردیم. ناتوانی).

معیار HEAL برای همه بیماری‌های پوستی در میان زیرجمعیت‌های نژاد/قومیت، از جمله نتایج سلامت (YLLs در هر 100000)، عملکرد مدل (3 توافقنامه برتر)، و رتبه‌بندی برای نتایج سلامت و عملکرد ابزار.
(* بالاتر بهتر است؛ احتمال عملکرد عادلانه مدل را با توجه به محورهای این جدول اندازه گیری می کند.)

تجزیه و تحلیل ما تخمین زد که این مدل 80.5٪ به احتمال زیاد در بین زیر گروه های نژاد / قومیت به طور عادلانه عمل می کند و 92.1٪ احتمالاً در بین جنس ها به طور عادلانه عمل می کند.

با این حال، در حالی که این مدل احتمالاً در بین گروه‌های سنی برای شرایط سرطان به طور عادلانه عمل می‌کند، ما متوجه شدیم که در گروه‌های سنی برای شرایط غیرسرطانی فضایی برای بهبود دارد. به عنوان مثال، افراد بالای 70 سال بدترین پیامدهای سلامتی مربوط به شرایط پوستی غیرسرطانی را دارند، اما این مدل عملکرد را برای این زیر گروه در اولویت قرار نداد.

معیار HEAL برای همه بیماری‌های پوستی در هر جنس، از جمله پیامدهای سلامتی (DALYs در هر 100000)، عملکرد مدل (3 توافق برتر)، و رتبه‌بندی برای نتایج سلامت و عملکرد ابزار. (* مانند بالا.)
معیارهای HEAL برای همه سرطان‌ها و بیماری‌های پوستی غیرسرطانی در گروه‌های سنی، از جمله پیامدهای سلامت (DALYs در هر 100000)، عملکرد مدل (3 توافق برتر)، و رتبه‌بندی برای نتایج سلامت و عملکرد ابزار. (* مانند بالا.)

قرار دادن چیزها در چارچوب

برای ارزیابی کل نگر، متریک HEAL را نمی توان به صورت مجزا به کار برد. در عوض، این معیار باید در کنار بسیاری از عوامل دیگر، از کارایی محاسباتی و حریم خصوصی داده‌ها گرفته تا ارزش‌های اخلاقی، و جنبه‌هایی که ممکن است بر نتایج تأثیر بگذارد (مثلاً سوگیری انتخاب یا تفاوت در بازنمایی داده‌های ارزیابی در بین گروه‌های جمعیتی) زمینه‌ای شود.

به عنوان یک مثال متخاصم، متریک HEAL را می توان با کاهش عمدی عملکرد مدل برای زیرجمعیت های دارای مزیت تا زمانی که عملکرد آن زیرجمعیت بدتر از بقیه باشد، به طور مصنوعی بهبود داد. برای اهداف توضیحی، با توجه به زیرجمعیت‌های A و B که در آن A نتایج سلامتی بدتری نسبت به B دارد، انتخاب بین دو مدل را در نظر بگیرید: مدل 1 (M1) 5٪ برای زیرجمعیت A نسبت به زیرجمعیت B عملکرد بهتری دارد. مدل 2 (M2) 5٪ عملکرد دارد. در زیرجمعیت A بدتر از B. متریک HEAL برای M1 بالاتر خواهد بود زیرا عملکرد را در یک زیرجمعیت با نتایج بدتر در اولویت قرار می دهد. با این حال، M1 ممکن است عملکرد مطلق تنها 75٪ و 70٪ برای زیرجمعیت های A و B به ترتیب داشته باشد، در حالی که M2 دارای عملکرد مطلق 75٪ و 80٪ برای زیرجمعیت های A و B است. انتخاب M1 به جای M2 منجر به عملکرد کلی بدتر برای همه زیرجمعیت‌ها می‌شود، زیرا برخی از زیرجمعیت‌ها بدتر هستند در حالی که هیچ زیرجمعیتی بهتر نیست.

بر این اساس، معیار HEAL باید در کنار یک شرط پارتو (که در مقاله بیشتر مورد بحث قرار گرفته است) استفاده شود، که تغییرات مدل را محدود می‌کند به طوری که نتایج برای هر زیرجمعیت یا بدون تغییر یا بهبود یافته در مقایسه با وضعیت موجود، و عملکرد برای هیچ زیرجمعیتی بدتر نمی‌شود.

چارچوب HEAL، در شکل فعلی‌اش، این احتمال را ارزیابی می‌کند که یک مدل مبتنی بر ML، عملکرد را برای زیرجمعیت‌ها با توجه به نابرابری‌های بهداشتی از قبل موجود برای زیرجمعیت‌های خاص اولویت‌بندی می‌کند. این با هدف درک اینکه آیا ML تفاوت در نتایج را در میان جمعیت‌های فرعی در واقعیت کاهش می‌دهد متفاوت است. به طور خاص، بهبود مدل‌سازی در نتایج مستلزم درک علّی مراحل در سفر مراقبتی است که قبل و بعد از استفاده از هر مدل مشخصی اتفاق می‌افتد. تحقیقات آینده برای رفع این شکاف مورد نیاز است.

نتیجه

چارچوب HEAL یک ارزیابی کمی از احتمال اینکه فناوری‌های هوش مصنوعی سلامت عملکرد را با توجه به نابرابری‌های سلامتی در اولویت قرار می‌دهند، ممکن می‌سازد. مطالعه موردی نشان می‌دهد که چگونه می‌توان چارچوب را در حوزه پوستی اعمال کرد، که نشان می‌دهد احتمال بالایی دارد که عملکرد مدل با توجه به نابرابری‌های سلامت در بین جنسیت و نژاد/قومیت اولویت‌بندی می‌شود، اما همچنین پتانسیل بهبود شرایط غیر سرطانی را در طول سن نشان می‌دهد. مطالعه موردی همچنین محدودیت‌هایی را در توانایی اعمال تمام جنبه‌های توصیه‌شده چارچوب نشان می‌دهد (به عنوان مثال، نقشه‌برداری بافت اجتماعی، در دسترس بودن داده‌ها)، بنابراین پیچیدگی ملاحظات برابری سلامت در ابزارهای مبتنی بر ML را برجسته می‌کند.

این کار یک رویکرد پیشنهادی برای پرداختن به یک چالش بزرگ برای هوش مصنوعی و برابری سلامت است، و ممکن است یک چارچوب ارزیابی مفید نه تنها در طول توسعه مدل، بلکه در طول مراحل قبل از اجرا و نظارت در دنیای واقعی، به عنوان مثال، در قالب عدالت سلامت ارائه کند. داشبوردها ما معتقدیم که نقطه قوت چارچوب HEAL در کاربرد آینده آن برای ابزارهای مختلف هوش مصنوعی و موارد استفاده و اصلاح آن در این فرآیند است. در نهایت، ما تصدیق می‌کنیم که یک رویکرد موفق در جهت درک تأثیر فناوری‌های هوش مصنوعی بر عدالت سلامت باید بیش از مجموعه‌ای از معیارها باشد. این امر مستلزم مجموعه ای از اهداف مورد توافق جامعه است که نشان دهنده کسانی است که بیشتر تحت تأثیر یک مدل قرار می گیرند.

سپاسگزاریها

تحقیقی که در اینجا توضیح داده شده است، کار مشترک بین تیم های زیادی در گوگل است. ما از همه نویسندگان همکارمان سپاسگزاریم: تری اسپیتز، مالکوم پایلز، هدر کول لوئیس، الری ولچین، استفن آر. پفول، دونالد مارتین جونیور، روناچای جارونسری، جف کیلینگ، یوان لیو، استفانی فارکور، چینگان ژو، جنا لستر، سیان هیوز، پاتریشیا استراچان، فریزر تان، پگی بوی، کریگ اچ مرمل، لیلی اچ پنگ، یوسی ماتیاس، گرگ اس. کورادو، دیل آر. وبستر، سانی ویرمانی، کریستوفر سمتورز، یون لیو و پو هسوان کامرون چن. ما همچنین از لورن وینر، سامی لاچگار، تینگ-آن لین، آرون لوه، مورگان دو، جنی ریزک، رنه وونگ، اشلی کریک، پرتی سینگ، آنیسا اومرانی، جسیکا شروف، الکساندر براون و آنا یورچنکو برای حمایت از آنها تشکر می کنیم. این پروژه.