هوش مصنوعی پزشکی چندوجهی – وبلاگ تحقیقاتی گوگل - سئو PBN

ارسال شده توسط گرگ کورادو، رئیس هوش مصنوعی سلامت، تحقیقات گوگل، و یوسی ماتیاس، معاون مهندسی و تحقیقات، تحقیقات گوگل

پزشکی یک رشته ذاتا چندوجهی است. هنگام ارائه مراقبت، پزشکان به طور معمول داده‌ها را از طیف وسیعی از روش‌ها از جمله تصاویر پزشکی، یادداشت‌های بالینی، آزمایش‌های آزمایشگاهی، پرونده الکترونیک سلامت، ژنومیک و موارد دیگر تفسیر می‌کنند. در حدود یک دهه گذشته، سیستم‌های هوش مصنوعی به عملکردی در سطح متخصص در وظایف خاص دست یافته‌اند در داخل خاص روش‌ها – برخی از سیستم‌های هوش مصنوعی اسکن‌های سی‌تی را پردازش می‌کنند، در حالی که برخی دیگر اسلایدهای آسیب‌شناسی با بزرگنمایی بالا را تجزیه و تحلیل می‌کنند، و برخی دیگر به دنبال تغییرات ژنتیکی نادر هستند. ورودی‌های این سیستم‌ها معمولاً داده‌های پیچیده‌ای مانند تصاویر هستند و معمولاً خروجی‌های ساختاریافته را ارائه می‌دهند، چه به صورت درجه‌های گسسته یا ماسک‌های تقسیم‌بندی تصویر متراکم. به موازات آن، ظرفیت‌ها و قابلیت‌های مدل‌های زبان بزرگ (LLM) چنان پیشرفته شده‌اند که درک و تخصص در دانش پزشکی را با تفسیر و پاسخ به زبان ساده نشان داده‌اند. اما چگونه می‌توانیم این قابلیت‌ها را برای ساختن سیستم‌های هوش مصنوعی پزشکی که می‌توانند از اطلاعات استفاده کنند، گرد هم بیاوریم همه این منابع؟

در پست وبلاگ امروز، طیفی از رویکردها را برای آوردن قابلیت‌های چندوجهی به LLMها بیان می‌کنیم و برخی نتایج هیجان‌انگیز را در مورد قابلیت کشش ساختن LLM‌های پزشکی چند وجهی، همانطور که در سه مقاله تحقیقاتی اخیر توضیح داده شده است، به اشتراک می‌گذاریم. مقالات به نوبه خود نحوه معرفی را تشریح می کنند از نو روش‌های یک LLM، نحوه پیوند یک مدل پایه تصویربرداری پزشکی پیشرفته به یک LLM محاوره‌ای، و اولین گام‌ها برای ساختن یک سیستم هوش مصنوعی پزشکی چندوجهی واقعاً عمومی. در صورت بلوغ موفقیت آمیز، LLM های پزشکی چندوجهی ممکن است به عنوان پایه و اساس فناوری های کمکی جدید شامل پزشکی حرفه ای، تحقیقات پزشکی و کاربردهای مصرف کننده عمل کنند. مانند کار قبلی خود، ما بر نیاز به ارزیابی دقیق این فناوری ها در همکاری با جامعه پزشکی و اکوسیستم مراقبت های بهداشتی تاکید می کنیم.

طیفی از رویکردها

چندین روش برای ساخت LLM های چندوجهی در ماه های اخیر پیشنهاد شده است [1, 2, 3]و بدون شک روش های جدید تا مدتی به ظهور خواهند رسید. به منظور درک فرصت‌ها برای آوردن روش‌های جدید به سیستم‌های هوش مصنوعی پزشکی، سه رویکرد کلی تعریف شده را در نظر خواهیم گرفت: استفاده از ابزار، پیوند مدل، و سیستم‌های عمومی.

طیف رویکردها برای ساختن LLM های چندوجهی از استفاده LLM از ابزارها یا مدل های موجود، تا استفاده از اجزای خاص دامنه با یک آداپتور، تا مدل سازی مشترک یک مدل چندوجهی را شامل می شود.

استفاده از ابزار

در استفاده از ابزار رویکرد، یک مرکز پزشکی LLM تجزیه و تحلیل داده ها را در روش های مختلف به مجموعه ای از زیرسیستم های نرم افزاری که به طور مستقل برای آن وظایف بهینه شده اند برون سپاری می کند: ابزارها. مثال رایج یادگاری استفاده از ابزار این است که به یک LLM آموزش داده شود که از ماشین حساب استفاده کند نه اینکه حساب را به تنهایی انجام دهد. در فضای پزشکی، یک LLM پزشکی که با اشعه ایکس قفسه سینه مواجه می‌شود، می‌تواند آن تصویر را به یک سیستم هوش مصنوعی رادیولوژی ارسال کند و آن پاسخ را یکپارچه کند. این را می‌توان از طریق رابط‌های برنامه‌نویسی کاربردی (API) که توسط زیرسیستم‌ها ارائه می‌شود، یا به عبارتی خیالی‌تر، دو سیستم هوش مصنوعی پزشکی با تخصص‌های مختلف که در یک مکالمه شرکت می‌کنند، انجام داد.

این رویکرد مزایای مهمی دارد. این اجازه می دهد تا حداکثر انعطاف پذیری و استقلال بین زیرسیستم ها را فراهم کند و سیستم های بهداشتی را قادر می سازد تا محصولات را بین ارائه دهندگان فناوری بر اساس ویژگی های عملکرد معتبر زیرسیستم ها ترکیب و مطابقت دهند. علاوه بر این، کانال های ارتباطی قابل خواندن توسط انسان بین زیرسیستم ها قابلیت ممیزی و اشکال زدایی را به حداکثر می رساند. با این حال، برقراری ارتباط صحیح بین زیرسیستم‌های مستقل می‌تواند مشکل باشد، انتقال اطلاعات را محدود کند، یا خطر عدم ارتباط و از دست دادن اطلاعات را در معرض خطر قرار دهد.

مدل پیوند

یک رویکرد یکپارچه تر، استفاده از یک شبکه عصبی تخصصی برای هر دامنه مربوطه، و تطبیق آن برای اتصال مستقیم به LLM است. پیوند زدن مدل بصری بر روی عامل استدلال اصلی. بر خلاف استفاده از ابزار که در آن ابزار(های) خاص مورد استفاده توسط LLM تعیین می شود، در پیوند مدل، محققان ممکن است انتخاب کنند که در طول توسعه از مدل های خاص استفاده، اصلاح یا توسعه دهند. در دو مقاله اخیر از Google Research، نشان می‌دهیم که این در واقع امکان‌پذیر است. LLM های عصبی معمولاً متن را با نگاشت کلمات در یک فضای جاسازی برداری بردار پردازش می کنند. هر دو مقاله بر اساس ایده نگاشت داده ها از یک روش جدید در فضای جاسازی کلمه ورودی که قبلاً برای LLM آشنا بود، ساخته شده اند. اولین مقاله، “LLM های چندوجهی برای سلامتی مبتنی بر داده های خاص فردی” نشان می دهد که پیش بینی خطر آسم در Biobank انگلستان را می توان بهبود بخشید اگر ابتدا یک طبقه بندی کننده شبکه عصبی برای تفسیر اسپیروگرام ها (روشی که برای ارزیابی توانایی تنفس استفاده می شود) و آموزش دهیم. سپس خروجی آن شبکه را به عنوان ورودی به LLM تطبیق دهید.

مقاله دوم، “ELIXR: به سوی یک سیستم هوش مصنوعی اشعه ایکس با هدف کلی از طریق همترازی مدل های زبان بزرگ و رمزگذارهای بینایی رادیولوژی”، همین روش را اتخاذ می کند، اما آن را برای مدل های رمزگذار تصویر در مقیاس کامل در رادیولوژی اعمال می کند. با شروع با یک مدل پایه برای درک اشعه ایکس قفسه سینه، که قبلاً نشان داده شده است که مبنای خوبی برای ساخت انواع طبقه بندی کننده ها در این روش است، این مقاله آموزش یک سبک وزن را توصیف می کند. آداپتور اطلاعات پزشکی که خروجی لایه بالایی مدل پایه را به صورت یک سری نشانه در فضای تعبیه‌های ورودی LLM دوباره بیان می‌کند. علیرغم تنظیم دقیق نه رمزگذار بصری و نه مدل زبان، سیستم به دست آمده قابلیت هایی را نشان می دهد که برای آنها آموزش ندیده است، از جمله جستجوی معنایی و پاسخگویی به سؤالات بصری.

رویکرد ما برای پیوند یک مدل با آموزش یک آداپتور اطلاعات پزشکی کار می‌کند که خروجی یک رمزگذار تصویر موجود یا تصفیه‌شده را به شکلی قابل درک LLM ترسیم می‌کند.

پیوند مدل دارای چندین مزیت است. این از منابع محاسباتی نسبتاً متوسطی برای آموزش لایه‌های آداپتور استفاده می‌کند، اما به LLM اجازه می‌دهد تا بر روی مدل‌های بهینه‌سازی شده و معتبر موجود در هر حوزه داده ایجاد کند. ماژولار کردن مشکل به اجزای رمزگذار، آداپتور و LLM همچنین می‌تواند آزمایش و اشکال‌زدایی اجزای نرم‌افزار جداگانه را هنگام توسعه و استقرار چنین سیستمی تسهیل کند. معایب مربوطه این است که ارتباط بین رمزگذار متخصص و LLM دیگر قابل خواندن توسط انسان نیست (مجموعه ای از بردارهای با ابعاد بالا است)، و روش پیوند نیازمند ساخت یک آداپتور جدید نه فقط برای هر رمزگذار مخصوص دامنه، بلکه برای هر رمزگذاری است. تجدید نظر از هر یک از آن رمزگذارها.

سیستم های عمومی

رادیکال ترین رویکرد برای هوش مصنوعی پزشکی چندوجهی، ساختن یک سیستم یکپارچه و کاملاً عمومی است که به طور بومی قادر به جذب اطلاعات از همه منابع است. در مقاله سوم خود در این زمینه، “به سوی هوش مصنوعی زیست پزشکی عمومی”، به جای داشتن رمزگذارها و آداپتورهای مجزا برای هر روش داده، ما بر اساس PaLM-E، یک مدل چندوجهی اخیرا منتشر شده که خود ترکیبی از یک LLM واحد است (PaLM) می‌سازیم. ) و یک رمزگذار دید منفرد (ViT). در این راه‌اندازی، روش‌های داده‌های متنی و جدولی توسط رمزگذار متن LLM پوشش داده می‌شوند، اما اکنون همه داده‌های دیگر به‌عنوان یک تصویر در نظر گرفته می‌شوند و به رمزگذار بینایی داده می‌شوند.

Med-PaLM M یک مدل مولد چندوجهی بزرگ است که به طور انعطاف پذیر داده های زیست پزشکی از جمله زبان بالینی، تصویربرداری و ژنومیک را با همان وزن مدل رمزگذاری و تفسیر می کند.

ما با تنظیم دقیق مجموعه کامل پارامترهای مدل در مجموعه داده های پزشکی که در مقاله توضیح داده شده است، PALM-E را در حوزه پزشکی تخصصی می کنیم. سیستم هوش مصنوعی پزشکی عمومی یک نسخه چندوجهی از Med-PaLM است که ما آن را Med-PaLM M می نامیم. معماری توالی به دنباله چندوجهی انعطاف پذیر به ما امکان می دهد انواع مختلفی از اطلاعات زیست پزشکی چندوجهی را در یک تعامل واحد به هم متصل کنیم. تا جایی که ما می دانیم، این اولین نمایش از یک مدل واحد است که می تواند داده های زیست پزشکی چندوجهی را تفسیر کند و طیف متنوعی از وظایف را با استفاده از مجموعه وزن های مدل یکسان در همه وظایف انجام دهد (ارزیابی های دقیق در مقاله).

این رویکرد سیستم کلی به چندوجهی، هم بلندپروازانه ترین و هم در عین حال ظریف ترین رویکردهایی است که ما توضیح می دهیم. در اصل، این رویکرد مستقیم انعطاف پذیری و انتقال اطلاعات را بین روش ها به حداکثر می رساند. بدون وجود API برای حفظ سازگاری در سراسر و بدون تکثیر لایه‌های آداپتور، رویکرد عمومی ساده‌ترین طراحی را مسلماً دارد. اما همین ظرافت نیز منشأ برخی از معایب آن است. هزینه‌های محاسباتی اغلب بالاتر است و با یک رمزگذار چشم‌انداز واحد که طیف وسیعی از روش‌ها را ارائه می‌کند، تخصص دامنه یا اشکال‌زدایی سیستم ممکن است آسیب ببیند.

واقعیت هوش مصنوعی پزشکی چندوجهی

برای استفاده حداکثری از هوش مصنوعی در پزشکی، باید قدرت سیستم های خبره آموزش دیده با هوش مصنوعی پیش بینی کننده را با انعطاف پذیری که از طریق هوش مصنوعی مولد امکان پذیر شده است، ترکیب کنیم. اینکه کدام رویکرد (یا ترکیبی از رویکردها) بیشتر در این زمینه مفید خواهد بود به عوامل متعددی بستگی دارد که هنوز ارزیابی نشده اند. آیا انعطاف‌پذیری و سادگی یک مدل عمومی با ارزش‌تر از مدولار بودن پیوند مدل یا استفاده از ابزار است؟ کدام رویکرد بالاترین کیفیت را برای یک مورد خاص در دنیای واقعی ارائه می دهد؟ آیا رویکرد ارجح برای حمایت از تحقیقات پزشکی یا آموزش پزشکی در مقابل افزایش عملکرد پزشکی متفاوت است؟ پاسخ به این سؤالات مستلزم تحقیقات تجربی دقیق مداوم و ادامه همکاری مستقیم با ارائه دهندگان مراقبت های بهداشتی، موسسات پزشکی، نهادهای دولتی و شرکای صنعت مراقبت های بهداشتی به طور گسترده است. ما مشتاقانه منتظریم تا با هم پاسخ ها را پیدا کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور