یک رویکرد مبتنی بر ML برای توصیف بهتر بیماری های ریوی - وبلاگ هوش مصنوعی گوگل - سئو PBN

ارسال شده توسط بابک بهساز، مهندس نرم افزار، و اندرو کارول، سرپرست محصول، ژنومیکس

ترکیبی از محیطی که یک فرد تجربه می کند و استعدادهای ژنتیکی آنها بیشتر خطر ابتلا به بیماری های مختلف را تعیین می کند. تلاش‌های بزرگ ملی، مانند Biobank بریتانیا، منابع عمومی و بزرگی را برای درک بهتر پیوندهای بین محیط، ژنتیک و بیماری ایجاد کرده است. این پتانسیل کمک به افراد برای درک بهتر نحوه حفظ سلامت، پزشکان برای درمان بیماری ها و دانشمندان برای توسعه داروهای جدید است.

یکی از چالش‌های این فرآیند این است که چگونه ما حجم وسیع اندازه‌گیری‌های بالینی را درک می‌کنیم – بیوبانک بریتانیا دارای پتابایت‌های بسیاری از تصویربرداری، آزمایش‌های متابولیک و سوابق پزشکی است که شامل 500000 فرد می‌شود. برای استفاده بهینه از این داده‌ها، باید بتوانیم اطلاعات موجود را به‌عنوان برچسب‌های مختصر و آموزنده در مورد بیماری‌ها و صفات معنی‌دار نمایش دهیم، فرآیندی که فنوتیپ‌سازی نامیده می‌شود. اینجاست که ما می‌توانیم از توانایی مدل‌های ML برای دریافت الگوهای پیچیده ظریف در مقادیر زیاد داده استفاده کنیم.

ما قبلاً توانایی استفاده از مدل‌های ML را برای فنوتیپ سریع در مقیاس بیماری‌های شبکیه نشان داده‌ایم. با این وجود، این مدل‌ها با استفاده از برچسب‌های قضاوت بالینی آموزش داده شدند و دسترسی به برچسب‌های درجه بالینی به دلیل زمان و هزینه‌ای که برای ایجاد آنها نیاز است، یک عامل محدودکننده است.

در “استنتاج بیماری انسدادی مزمن ریه با یادگیری عمیق بر روی اسپیروگرام های خام، جایگاه های ژنتیکی جدید را شناسایی می کند و مدل های خطر را بهبود می بخشد” منتشر شده در ژنتیک طبیعت، ما هیجان زده هستیم که روشی را برای آموزش مدل های دقیق ML برای کشف ژنتیکی بیماری ها، حتی در هنگام استفاده از برچسب های پر سر و صدا و غیر قابل اعتماد، برجسته کنیم. ما توانایی آموزش مدل‌های ML را نشان می‌دهیم که می‌توانند مستقیماً از اندازه‌گیری بالینی خام و اطلاعات سوابق پزشکی غیرقابل اعتماد فنوتیپ کنند. این کاهش اتکا به متخصصان حوزه پزشکی برای برچسب‌گذاری، دامنه کاربردهای تکنیک ما را به طیف وسیعی از بیماری‌ها گسترش می‌دهد و پتانسیل بهبود پیشگیری، تشخیص و درمان آنها را دارد. ما این روش را با مدل‌های ML نشان می‌دهیم که می‌تواند عملکرد ریه و بیماری مزمن انسدادی ریه (COPD) را بهتر مشخص کند. علاوه بر این، ما سودمندی این مدل‌ها را با نشان دادن توانایی بهتر برای شناسایی انواع ژنتیکی مرتبط با COPD، درک بهتر زیست‌شناسی پشت این بیماری و پیش‌بینی موفقیت‌آمیز پیامدهای مرتبط با COPD نشان می‌دهیم.

ML برای درک عمیق تر بازدم

برای این نمایش، ما بر COPD، سومین علت اصلی مرگ و میر در سراسر جهان در سال 2019 تمرکز کردیم، که در آن التهاب راه‌های هوایی و اختلال در جریان هوا می‌تواند به تدریج عملکرد ریه را کاهش دهد. عملکرد ریه برای COPD و سایر بیماری‌ها با ثبت حجم بازدم فرد در طول زمان اندازه‌گیری می‌شود (این رکورد اسپیروگرام نامیده می‌شود؛ مثال زیر را ببینید). اگرچه دستورالعمل هایی (به نام GOLD) برای تعیین وضعیت COPD از بازدم وجود دارد، اما این دستورالعمل ها فقط از چند نقطه داده خاص در منحنی استفاده می کنند و آستانه های ثابتی را برای آن مقادیر اعمال می کنند. بسیاری از داده های غنی از این اسپیروگرام ها در این تجزیه و تحلیل عملکرد ریه کنار گذاشته شده است.

ما استدلال کردیم که مدل‌های ML که برای طبقه‌بندی اسپیروگرام‌ها آموزش دیده‌اند، می‌توانند از داده‌های غنی موجود به‌طور کامل‌تر استفاده کنند و به اندازه‌گیری‌های دقیق‌تر و جامع‌تری از عملکرد و بیماری ریه منجر شوند، مشابه آنچه در سایر کارهای طبقه‌بندی مانند ماموگرافی یا بافت‌شناسی دیده‌ایم. ما مدل‌های ML را آموزش دادیم تا با استفاده از اسپیروگرام‌های کامل به عنوان ورودی، پیش‌بینی کنیم که آیا یک فرد مبتلا به COPD است یا خیر.

بررسی اجمالی وضعیت اسپیرومتری و COPD اسپیروگرام از تست عملکرد ریه که اسپیروگرام حجم-زمان بازدم اجباری را نشان می دهد (ترک کرد، یک اسپیروگرام جریان بازدم اجباری (وسطو یک اسپیروگرام جریان-حجم بازدمی درون یابی شده (درست). مشخصات افراد بدون COPD متفاوت است.

روش متداول مدل‌های آموزشی برای این مشکل، یادگیری تحت نظارت، نیاز به نمونه‌ها با برچسب‌ها دارد. تعیین آن برچسب ها می تواند به تلاش متخصصان بسیار محدود نیاز داشته باشد. برای این کار، برای اینکه نشان دهیم لزوماً نیازی به برچسب‌های درجه‌بندی شده پزشکی نداریم، تصمیم گرفتیم از منابع متنوعی از اطلاعات پرونده پزشکی در دسترس برای ایجاد آن برچسب‌ها بدون بررسی متخصص پزشکی استفاده کنیم. این برچسب ها به دو دلیل کمتر قابل اعتماد و نویز هستند. اولاً، شکاف هایی در پرونده پزشکی افراد وجود دارد، زیرا آنها از خدمات بهداشتی متعدد استفاده می کنند. دوم، COPD اغلب تشخیص داده نمی شود، به این معنی که بسیاری از مبتلایان به این بیماری حتی اگر سوابق پزشکی کامل را جمع آوری کنیم، برچسب مبتلا به آن نخواهند داشت. با این وجود، ما مدلی را آموزش دادیم تا این برچسب‌های پر سر و صدا را از روی منحنی‌های اسپیروگرام پیش‌بینی کند و با پیش‌بینی‌های مدل به‌عنوان یک بدهی کمی COPD یا امتیاز ریسک رفتار کنیم.

برچسب های وضعیت COPD پر سر و صدا با استفاده از منابع مختلف پرونده پزشکی (داده های بالینی) به دست آمد. سپس یک مدل مسئولیت COPD برای پیش‌بینی وضعیت COPD از اسپیروگرام‌های حجم جریان خام آموزش داده می‌شود.

پیش بینی نتایج COPD

سپس بررسی کردیم که آیا نمرات خطر تولید شده توسط مدل ما می‌تواند انواع پیامدهای COPD دوتایی را بهتر پیش‌بینی کند (به عنوان مثال، وضعیت COPD یک فرد، اینکه آیا به دلیل COPD در بیمارستان بستری شده‌اند یا بر اثر آن فوت کرده‌اند). برای مقایسه، ما مدل را نسبت به اندازه‌گیری‌های تعریف شده توسط متخصص مورد نیاز برای تشخیص COPD، به‌ویژه FEV1/FVC، که نقاط خاص روی منحنی اسپیروگرام را با یک نسبت ریاضی ساده مقایسه می‌کند، محک زدیم. ما بهبودی را در توانایی پیش‌بینی این نتایج مشاهده کردیم، همانطور که در منحنی‌های فراخوان دقیق زیر مشاهده می‌شود.

منحنی‌های فراخوان دقیق برای وضعیت COPD و نتایج برای مدل ML ما (سبز) در مقایسه با معیارهای سنتی. فواصل اطمینان با سایه روشن تر نشان داده می شود.

ما همچنین مشاهده کردیم که جداسازی جمعیت‌ها با امتیاز مدل COPD آنها، مرگ و میر ناشی از همه علل را پیش‌بینی می‌کند. این طرح نشان می دهد که افراد با خطر COPD بالاتر احتمال دارد به هر علتی زودتر بمیرند و این خطر احتمالاً پیامدهایی فراتر از COPD دارد.

تجزیه و تحلیل بقای گروهی از افراد Biobank بریتانیا که براساس چارک خطر پیش‌بینی‌شده مدل COPD طبقه‌بندی شده‌اند. کاهش منحنی نشان می دهد که افراد در گروه در طول زمان می میرند. به عنوان مثال، p100 نشان دهنده 25٪ از گروه با بیشترین خطر پیش بینی شده است، در حالی که p50 نشان دهنده چارک دوم است.

شناسایی پیوندهای ژنتیکی با COPD

از آنجایی که هدف بانک‌های زیستی در مقیاس بزرگ گردآوری مقادیر زیادی از داده‌های فنوتیپی و ژنتیکی است، ما همچنین آزمایشی به نام مطالعه انجمن گسترده ژنوم (GWAS) برای شناسایی پیوندهای ژنتیکی با COPD و استعداد ژنتیکی انجام دادیم. یک GWAS قدرت ارتباط آماری بین یک نوع ژنتیکی معین – تغییر در یک موقعیت خاص DNA – و مشاهدات (مثلا COPD) را در میان گروهی از موارد و گروه‌های کنترل اندازه‌گیری می‌کند. پیوندهای ژنتیکی که به این روش کشف می‌شوند می‌توانند به توسعه دارویی که فعالیت یا محصولات یک ژن را تغییر می‌دهند، و همچنین درک ما از زیست‌شناسی یک بیماری را گسترش دهند.

ما با روش فنوتایپینگ ML خود نشان دادیم که نه تنها تقریباً همه انواع شناخته شده COPD که با فنوتیپ دستی یافت می شوند را دوباره کشف می کنیم، بلکه بسیاری از گونه های ژنتیکی جدید را نیز می یابیم که به طور قابل توجهی با COPD مرتبط هستند. علاوه بر این، ما توافق خوبی را در مورد اندازه اثر برای انواع کشف شده توسط هر دو روش ML ما و روش دستی مشاهده می کنیم (R²= 0.93)، که شواهد قوی برای اعتبار انواع تازه یافت شده ارائه می دهد.

ترک کرد: نمودار مقایسه قدرت آماری کشف ژنتیکی با استفاده از برچسب ها برای مدل ML ما (محور y) با توان آماری از برچسب های دستی از یک مطالعه سنتی (ایکس-محور). مقدار بالاتر از y = ایکس خط نشان دهنده قدرت آماری بیشتر در روش ما است. نقاط سبز نشان دهنده یافته های قابل توجهی در روش ما است که با استفاده از رویکرد سنتی یافت نمی شوند. نقاط نارنجی در رویکرد سنتی قابل توجه است اما در رویکرد ما نه. نقاط آبی در هر دو قابل توجه است. درست: برآورد اثر ارتباط بین روش ما (yمحور) و روش سنتی (ایکس-محور). توجه داشته باشید که مقادیر نسبی بین مطالعات قابل مقایسه هستند اما اعداد مطلق قابل مقایسه نیستند.

در نهایت، همکاران ما در دانشکده پزشکی هاروارد و بریگهام و بیمارستان زنان، با ارائه بینش‌هایی در مورد نقش بیولوژیکی احتمالی انواع جدید در توسعه و پیشرفت COPD، بیشتر قابل قبول بودن این یافته‌ها را بررسی کردند (شما می‌توانید بحث بیشتر در مورد این بینش‌ها را در مقاله ببینید. ).

نتیجه

ما نشان دادیم که روش‌های قبلی ما برای فنوتیپ کردن با ML را می‌توان به طیف وسیعی از بیماری‌ها گسترش داد و می‌تواند بینش‌های جدید و ارزشمندی را ارائه دهد. ما دو مشاهدات کلیدی را با استفاده از آن برای پیش‌بینی COPD از اسپیروگرام‌ها و کشف بینش‌های ژنتیکی جدید انجام دادیم. اول، دانش دامنه برای پیش‌بینی از داده‌های خام پزشکی ضروری نبود. جالب توجه است، ما نشان دادیم که داده‌های پزشکی خام احتمالاً مورد استفاده قرار نمی‌گیرند و مدل ML می‌تواند الگوهایی را در آن بیابد که توسط اندازه‌گیری‌های تعریف‌شده توسط متخصص ثبت نشده‌اند. دوم، ما نیازی به برچسب های درجه بندی پزشکی نداریم. در عوض، برچسب های پر سر و صدا تعریف شده از سوابق پزشکی به طور گسترده در دسترس می توانند برای ایجاد امتیاز خطر بالینی پیش بینی کننده و ژنتیکی مورد استفاده قرار گیرند. ما امیدواریم که این کار به طور گسترده توانایی این زمینه را برای استفاده از برچسب های پر سر و صدا گسترش دهد و درک جمعی ما از عملکرد و بیماری ریه را بهبود بخشد.

قدردانی

این کار خروجی ترکیبی از چندین مشارکت کننده و مؤسسه است. ما از همه مشارکت کنندگان: جاستین کوسنتینو، بابک علی پناهی، زکری آر. مک‌کاو، کوری وای مک‌لین، فرهاد هرمزدیاری (گوگل)، داوین هیل (دانشگاه شمال شرقی)، تائه هوی شوانتز-آن و دانگ‌بینگ لای (دانشگاه ایندیانا)، برایان دی تشکر می‌کنیم. هابز و مایکل اچ چو (بیمارستان زنان و بریگام و دانشکده پزشکی هاروارد). ما همچنین از تد یون و نیک فورولوت برای بررسی نسخه خطی، گرگ کورادو و شراویا شتی برای حمایت، و هوارد یانگ، کاویتا کولکارنی و تامی هوین برای کمک به تدارکات انتشارات تشکر می کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور