برابری سلامت با نابرابریهایی که دلایل زیادی دارد، یک نگرانی عمده اجتماعی در سراسر جهان است. این منابع شامل محدودیت در دسترسی به مراقبت های بهداشتی، تفاوت در درمان بالینی و حتی تفاوت های اساسی در فناوری تشخیصی است. به عنوان مثال، در درماتولوژی، پیامدهای سرطان پوست برای جمعیت هایی مانند اقلیت ها، افرادی که وضعیت اجتماعی-اقتصادی پایین تری دارند، یا افرادی که دسترسی محدود به مراقبت های بهداشتی دارند، بدتر است. در حالی که در پیشرفتهای اخیر در یادگیری ماشین (ML) و هوش مصنوعی (AI) برای کمک به بهبود مراقبتهای بهداشتی وعدههای زیادی وجود دارد، این انتقال از تحقیقات به کنار تخت باید با درک دقیقی از اینکه آیا و چگونه آنها بر عدالت سلامت تأثیر میگذارند همراه باشد.
برابری سلامت توسط سازمان های بهداشت عمومی به عنوان عادلانه فرصت برای همه افراد برای سالم بودن تا حد امکان تعریف شده است. مهمتر از همه، حقوق صاحبان سهام ممکن است متفاوت باشد برابری. به عنوان مثال، افرادی که موانع بیشتری برای بهبود سلامت خود دارند، ممکن است به تلاش بیشتر یا متفاوتی برای تجربه این فرصت منصفانه نیاز داشته باشند. به طور مشابه، حقوق صاحبان سهام نیست انصاف همانطور که در AI برای ادبیات مراقبت های بهداشتی تعریف شده است. در حالی که عدالت هوش مصنوعی اغلب برای عملکرد یکسان فناوری هوش مصنوعی در میان جمعیتهای مختلف بیماران تلاش میکند، این هدف اولویتبندی عملکرد با توجه به نابرابریهای بهداشتی از قبل موجود نیست.
ملاحظات برابری سلامت یک مداخله (به عنوان مثال، یک ابزار مبتنی بر ML، که با رنگ آبی تیره نشان داده شده است) اگر به کاهش نابرابری های موجود در نتایج سلامت کمک کند (با رنگ آبی روشن تر نشان داده شده است) برابری سلامت را ارتقا می دهد. |
در “ارزیابی برابری سلامت عملکرد یادگیری ماشینی (HEAL): چارچوب و مطالعه موردی مدل هوش مصنوعی پوستی، منتشر شده در Lancet eClinical Medicine، ما یک روش برای ارزیابی کمی پیشنهاد می کنیم که آیا فناوری های بهداشتی مبتنی بر ML به طور عادلانه عمل می کنند یا خیر. به عبارت دیگر، آیا مدل ML برای کسانی که بدترین پیامدهای سلامتی را برای شرایطی که مدل قرار است به آن رسیدگی کند، عملکرد خوبی دارد؟ این هدف بر این اصل استوار است که برابری سلامت باید عملکرد مدل را با توجه به نتایج متفاوت سلامت، که ممکن است به دلیل تعدادی از عوامل شامل نابرابریهای ساختاری (مانند جمعیتشناختی، اجتماعی، فرهنگی، سیاسی، اقتصادی، محیطی و جغرافیایی).
چارچوب عدالت سلامت (HEAL)
چارچوب HEAL یک فرآیند 4 مرحلهای را برای برآورد احتمال عملکرد عادلانه یک فناوری سلامت مبتنی بر ML پیشنهاد میکند:
-
شناسایی عوامل مرتبط با نابرابری های سلامت و تعریف معیارهای عملکرد ابزار،
-
شناسایی و تعیین کمیت نابرابری های بهداشتی از قبل موجود،
-
اندازه گیری عملکرد ابزار برای هر زیرجمعیت،
-
احتمال اینکه این ابزار عملکرد را با توجه به نابرابریهای سلامتی در اولویت قرار دهد، اندازهگیری کنید.
خروجی مرحله نهایی متریک HEAL نامیده میشود که نشان میدهد عملکرد مدل ML تا چه حد با نابرابریهای سلامتی ضد همبستگی است. به عبارت دیگر، آیا این مدل با جمعیت هایی که پیامدهای سلامت بدتری دارند بهتر عمل می کند؟
این فرآیند 4 مرحلهای برای اطلاع از بهبودها برای عادلانهتر کردن عملکرد مدل ML طراحی شده است، و قرار است به طور منظم تکرار شود و مجدداً ارزیابی شود. برای مثال، در دسترس بودن دادههای پیامدهای سلامت در مرحله (2) میتواند انتخاب عوامل جمعیتشناختی و براکتها در مرحله (1) را مشخص کند، و چارچوب را میتوان دوباره با مجموعههای داده، مدلها و جمعیتهای جدید اعمال کرد.
چارچوبی برای ارزیابی عدالت سلامت عملکرد یادگیری ماشین (HEAL). اصل راهنمای ما اجتناب از تشدید نابرابری های سلامت است و این مراحل به ما کمک می کند تا نابرابری ها را شناسایی کرده و عملکرد مدل ناعادلانه را ارزیابی کنیم تا به سمت نتایج بهتر برای همه حرکت کنیم. |
با این کار، ما گامی به سمت تشویق ارزیابی صریح ملاحظات برابری سلامت در فناوریهای هوش مصنوعی برمیداریم و اولویتبندی تلاشها را در طول توسعه مدل برای کاهش نابرابریهای سلامت برای زیرجمعیتهایی که در معرض نابرابریهای ساختاری هستند تشویق میکنیم که میتواند نتایج متفاوتی را ایجاد کند. باید توجه داشته باشیم که چارچوب حاضر روابط علی را مدل نمیکند و بنابراین، نمیتواند تأثیر واقعی یک فناوری جدید بر کاهش نابرابریهای پیامدهای سلامتی را تعیین کند. با این حال، معیار HEAL ممکن است به شناسایی فرصتهای بهبود کمک کند، جایی که عملکرد فعلی با توجه به نابرابریهای بهداشتی از قبل در اولویت قرار نمیگیرد.
مطالعه موردی در یک مدل پوستی
به عنوان یک مطالعه موردی گویا، ما این چارچوب را برای یک مدل پوستی اعمال کردیم که از یک شبکه عصبی کانولوشنال مشابه آنچه در کار قبلی توضیح داده شد استفاده میکند. این مدل درماتولوژی نمونه برای طبقهبندی ۲۸۸ بیماری پوستی با استفاده از مجموعه داده توسعهای از ۲۹ هزار مورد آموزش داده شد. ورودی مدل شامل سه عکس از یک مشکل پوستی به همراه اطلاعات دموگرافیک و یک تاریخچه پزشکی ساختار یافته است. خروجی شامل یک لیست رتبه بندی شده از شرایط پوستی مشابه است.
با استفاده از چارچوب HEAL، ما این مدل را با ارزیابی اینکه آیا عملکرد را با توجه به پیامدهای سلامتی از قبل در اولویت قرار می دهد، ارزیابی کردیم. این مدل برای پیشبینی شرایط پوستی احتمالی (از لیست صدها نفر) بر اساس عکسهای مربوط به یک نگرانی پوستی و فرادادههای بیمار طراحی شده است. ارزیابی مدل با استفاده از یک متریک توافق بالا 3 انجام میشود، که کمیت میدهد که هر چند وقت یکبار 3 شرایط خروجی برتر با محتملترین شرایط مطابقت دارند که توسط یک پانل متخصص پوست پیشنهاد شده است. متریک HEAL از طریق ضد همبستگی این توافقنامه برتر 3 با رتبهبندی نتایج سلامت محاسبه میشود.
ما از مجموعه دادهای متشکل از 5420 مورد از راه دور درماتولوژی، غنیشده برای تنوع در سن، جنس و نژاد/قومیت برای ارزیابی گذشتهنگر معیار HEAL مدل استفاده کردیم. مجموعه داده شامل موارد “ذخیره و ارسال” از بیماران 20 ساله یا بالاتر از ارائه دهندگان مراقبت های اولیه در ایالات متحده و کلینیک های سرطان پوست در استرالیا بود. بر اساس بررسی متون، ما تصمیم گرفتیم که نژاد/قومیت، جنس و سن را به عنوان عوامل بالقوه نابرابری بررسی کنیم و از تکنیک های نمونه گیری استفاده کردیم تا اطمینان حاصل کنیم که مجموعه داده ارزیابی ما دارای نمایش کافی از همه نژاد/قومیت، جنس و گروه های سنی است. برای تعیین کمیت پیامدهای سلامت از قبل موجود برای هر زیرگروه، ما به اندازهگیریهای پایگاههای داده عمومی تأیید شده توسط سازمان بهداشت جهانی، مانند سالهای از دست رفته زندگی (YLLs) و سالهای زندگی تعدیلشده با ناتوانی (DALYs؛ سالهای از دست رفته زندگی به اضافه سالهای زندگی با آنها تکیه کردیم. ناتوانی).
معیار HEAL برای همه بیماریهای پوستی در میان زیرجمعیتهای نژاد/قومیت، از جمله نتایج سلامت (YLLs در هر 100000)، عملکرد مدل (3 توافقنامه برتر)، و رتبهبندی برای نتایج سلامت و عملکرد ابزار. (* بالاتر بهتر است؛ احتمال عملکرد عادلانه مدل را با توجه به محورهای این جدول اندازه گیری می کند.) |
معیار HEAL برای همه بیماریهای پوستی در هر جنس، از جمله پیامدهای سلامتی (DALYs در هر 100000)، عملکرد مدل (3 توافق برتر)، و رتبهبندی برای نتایج سلامت و عملکرد ابزار. (* مانند بالا.) |
معیارهای HEAL برای همه سرطانها و بیماریهای پوستی غیرسرطانی در گروههای سنی، از جمله پیامدهای سلامت (DALYs در هر 100000)، عملکرد مدل (3 توافق برتر)، و رتبهبندی برای نتایج سلامت و عملکرد ابزار. (* مانند بالا.) |
قرار دادن چیزها در چارچوب
برای ارزیابی کل نگر، متریک HEAL را نمی توان به صورت مجزا به کار برد. در عوض، این معیار باید در کنار بسیاری از عوامل دیگر، از کارایی محاسباتی و حریم خصوصی دادهها گرفته تا ارزشهای اخلاقی، و جنبههایی که ممکن است بر نتایج تأثیر بگذارد (مثلاً سوگیری انتخاب یا تفاوت در بازنمایی دادههای ارزیابی در بین گروههای جمعیتی) زمینهای شود.
به عنوان یک مثال متخاصم، متریک HEAL را می توان با کاهش عمدی عملکرد مدل برای زیرجمعیت های دارای مزیت تا زمانی که عملکرد آن زیرجمعیت بدتر از بقیه باشد، به طور مصنوعی بهبود داد. برای اهداف توضیحی، با توجه به زیرجمعیتهای A و B که در آن A نتایج سلامتی بدتری نسبت به B دارد، انتخاب بین دو مدل را در نظر بگیرید: مدل 1 (M1) 5٪ برای زیرجمعیت A نسبت به زیرجمعیت B عملکرد بهتری دارد. مدل 2 (M2) 5٪ عملکرد دارد. در زیرجمعیت A بدتر از B. متریک HEAL برای M1 بالاتر خواهد بود زیرا عملکرد را در یک زیرجمعیت با نتایج بدتر در اولویت قرار می دهد. با این حال، M1 ممکن است عملکرد مطلق تنها 75٪ و 70٪ برای زیرجمعیت های A و B به ترتیب داشته باشد، در حالی که M2 دارای عملکرد مطلق 75٪ و 80٪ برای زیرجمعیت های A و B است. انتخاب M1 به جای M2 منجر به عملکرد کلی بدتر برای همه زیرجمعیتها میشود، زیرا برخی از زیرجمعیتها بدتر هستند در حالی که هیچ زیرجمعیتی بهتر نیست.
بر این اساس، معیار HEAL باید در کنار یک شرط پارتو (که در مقاله بیشتر مورد بحث قرار گرفته است) استفاده شود، که تغییرات مدل را محدود میکند به طوری که نتایج برای هر زیرجمعیت یا بدون تغییر یا بهبود یافته در مقایسه با وضعیت موجود، و عملکرد برای هیچ زیرجمعیتی بدتر نمیشود.
چارچوب HEAL، در شکل فعلیاش، این احتمال را ارزیابی میکند که یک مدل مبتنی بر ML، عملکرد را برای زیرجمعیتها با توجه به نابرابریهای بهداشتی از قبل موجود برای زیرجمعیتهای خاص اولویتبندی میکند. این با هدف درک اینکه آیا ML تفاوت در نتایج را در میان جمعیتهای فرعی در واقعیت کاهش میدهد متفاوت است. به طور خاص، بهبود مدلسازی در نتایج مستلزم درک علّی مراحل در سفر مراقبتی است که قبل و بعد از استفاده از هر مدل مشخصی اتفاق میافتد. تحقیقات آینده برای رفع این شکاف مورد نیاز است.
نتیجه
چارچوب HEAL یک ارزیابی کمی از احتمال اینکه فناوریهای هوش مصنوعی سلامت عملکرد را با توجه به نابرابریهای سلامتی در اولویت قرار میدهند، ممکن میسازد. مطالعه موردی نشان میدهد که چگونه میتوان چارچوب را در حوزه پوستی اعمال کرد، که نشان میدهد احتمال بالایی دارد که عملکرد مدل با توجه به نابرابریهای سلامت در بین جنسیت و نژاد/قومیت اولویتبندی میشود، اما همچنین پتانسیل بهبود شرایط غیر سرطانی را در طول سن نشان میدهد. مطالعه موردی همچنین محدودیتهایی را در توانایی اعمال تمام جنبههای توصیهشده چارچوب نشان میدهد (به عنوان مثال، نقشهبرداری بافت اجتماعی، در دسترس بودن دادهها)، بنابراین پیچیدگی ملاحظات برابری سلامت در ابزارهای مبتنی بر ML را برجسته میکند.
این کار یک رویکرد پیشنهادی برای پرداختن به یک چالش بزرگ برای هوش مصنوعی و برابری سلامت است، و ممکن است یک چارچوب ارزیابی مفید نه تنها در طول توسعه مدل، بلکه در طول مراحل قبل از اجرا و نظارت در دنیای واقعی، به عنوان مثال، در قالب عدالت سلامت ارائه کند. داشبوردها ما معتقدیم که نقطه قوت چارچوب HEAL در کاربرد آینده آن برای ابزارهای مختلف هوش مصنوعی و موارد استفاده و اصلاح آن در این فرآیند است. در نهایت، ما تصدیق میکنیم که یک رویکرد موفق در جهت درک تأثیر فناوریهای هوش مصنوعی بر عدالت سلامت باید بیش از مجموعهای از معیارها باشد. این امر مستلزم مجموعه ای از اهداف مورد توافق جامعه است که نشان دهنده کسانی است که بیشتر تحت تأثیر یک مدل قرار می گیرند.
سپاسگزاریها
تحقیقی که در اینجا توضیح داده شده است، کار مشترک بین تیم های زیادی در گوگل است. ما از همه نویسندگان همکارمان سپاسگزاریم: تری اسپیتز، مالکوم پایلز، هدر کول لوئیس، الری ولچین، استفن آر. پفول، دونالد مارتین جونیور، روناچای جارونسری، جف کیلینگ، یوان لیو، استفانی فارکور، چینگان ژو، جنا لستر، سیان هیوز، پاتریشیا استراچان، فریزر تان، پگی بوی، کریگ اچ مرمل، لیلی اچ پنگ، یوسی ماتیاس، گرگ اس. کورادو، دیل آر. وبستر، سانی ویرمانی، کریستوفر سمتورز، یون لیو و پو هسوان کامرون چن. ما همچنین از لورن وینر، سامی لاچگار، تینگ-آن لین، آرون لوه، مورگان دو، جنی ریزک، رنه وونگ، اشلی کریک، پرتی سینگ، آنیسا اومرانی، جسیکا شروف، الکساندر براون و آنا یورچنکو برای حمایت از آنها تشکر می کنیم. این پروژه.