پزشکی یک رشته ذاتا چندوجهی است. هنگام ارائه مراقبت، پزشکان به طور معمول دادهها را از طیف وسیعی از روشها از جمله تصاویر پزشکی، یادداشتهای بالینی، آزمایشهای آزمایشگاهی، پرونده الکترونیک سلامت، ژنومیک و موارد دیگر تفسیر میکنند. در حدود یک دهه گذشته، سیستمهای هوش مصنوعی به عملکردی در سطح متخصص در وظایف خاص دست یافتهاند در داخل خاص روشها – برخی از سیستمهای هوش مصنوعی اسکنهای سیتی را پردازش میکنند، در حالی که برخی دیگر اسلایدهای آسیبشناسی با بزرگنمایی بالا را تجزیه و تحلیل میکنند، و برخی دیگر به دنبال تغییرات ژنتیکی نادر هستند. ورودیهای این سیستمها معمولاً دادههای پیچیدهای مانند تصاویر هستند و معمولاً خروجیهای ساختاریافته را ارائه میدهند، چه به صورت درجههای گسسته یا ماسکهای تقسیمبندی تصویر متراکم. به موازات آن، ظرفیتها و قابلیتهای مدلهای زبان بزرگ (LLM) چنان پیشرفته شدهاند که درک و تخصص در دانش پزشکی را با تفسیر و پاسخ به زبان ساده نشان دادهاند. اما چگونه میتوانیم این قابلیتها را برای ساختن سیستمهای هوش مصنوعی پزشکی که میتوانند از اطلاعات استفاده کنند، گرد هم بیاوریم همه این منابع؟
در پست وبلاگ امروز، طیفی از رویکردها را برای آوردن قابلیتهای چندوجهی به LLMها بیان میکنیم و برخی نتایج هیجانانگیز را در مورد قابلیت کشش ساختن LLMهای پزشکی چند وجهی، همانطور که در سه مقاله تحقیقاتی اخیر توضیح داده شده است، به اشتراک میگذاریم. مقالات به نوبه خود نحوه معرفی را تشریح می کنند از نو روشهای یک LLM، نحوه پیوند یک مدل پایه تصویربرداری پزشکی پیشرفته به یک LLM محاورهای، و اولین گامها برای ساختن یک سیستم هوش مصنوعی پزشکی چندوجهی واقعاً عمومی. در صورت بلوغ موفقیت آمیز، LLM های پزشکی چندوجهی ممکن است به عنوان پایه و اساس فناوری های کمکی جدید شامل پزشکی حرفه ای، تحقیقات پزشکی و کاربردهای مصرف کننده عمل کنند. مانند کار قبلی خود، ما بر نیاز به ارزیابی دقیق این فناوری ها در همکاری با جامعه پزشکی و اکوسیستم مراقبت های بهداشتی تاکید می کنیم.
طیفی از رویکردها
چندین روش برای ساخت LLM های چندوجهی در ماه های اخیر پیشنهاد شده است [1, 2, 3]و بدون شک روش های جدید تا مدتی به ظهور خواهند رسید. به منظور درک فرصتها برای آوردن روشهای جدید به سیستمهای هوش مصنوعی پزشکی، سه رویکرد کلی تعریف شده را در نظر خواهیم گرفت: استفاده از ابزار، پیوند مدل، و سیستمهای عمومی.
![]() |
طیف رویکردها برای ساختن LLM های چندوجهی از استفاده LLM از ابزارها یا مدل های موجود، تا استفاده از اجزای خاص دامنه با یک آداپتور، تا مدل سازی مشترک یک مدل چندوجهی را شامل می شود. |
استفاده از ابزار
در استفاده از ابزار رویکرد، یک مرکز پزشکی LLM تجزیه و تحلیل داده ها را در روش های مختلف به مجموعه ای از زیرسیستم های نرم افزاری که به طور مستقل برای آن وظایف بهینه شده اند برون سپاری می کند: ابزارها. مثال رایج یادگاری استفاده از ابزار این است که به یک LLM آموزش داده شود که از ماشین حساب استفاده کند نه اینکه حساب را به تنهایی انجام دهد. در فضای پزشکی، یک LLM پزشکی که با اشعه ایکس قفسه سینه مواجه میشود، میتواند آن تصویر را به یک سیستم هوش مصنوعی رادیولوژی ارسال کند و آن پاسخ را یکپارچه کند. این را میتوان از طریق رابطهای برنامهنویسی کاربردی (API) که توسط زیرسیستمها ارائه میشود، یا به عبارتی خیالیتر، دو سیستم هوش مصنوعی پزشکی با تخصصهای مختلف که در یک مکالمه شرکت میکنند، انجام داد.
این رویکرد مزایای مهمی دارد. این اجازه می دهد تا حداکثر انعطاف پذیری و استقلال بین زیرسیستم ها را فراهم کند و سیستم های بهداشتی را قادر می سازد تا محصولات را بین ارائه دهندگان فناوری بر اساس ویژگی های عملکرد معتبر زیرسیستم ها ترکیب و مطابقت دهند. علاوه بر این، کانال های ارتباطی قابل خواندن توسط انسان بین زیرسیستم ها قابلیت ممیزی و اشکال زدایی را به حداکثر می رساند. با این حال، برقراری ارتباط صحیح بین زیرسیستمهای مستقل میتواند مشکل باشد، انتقال اطلاعات را محدود کند، یا خطر عدم ارتباط و از دست دادن اطلاعات را در معرض خطر قرار دهد.
مدل پیوند
یک رویکرد یکپارچه تر، استفاده از یک شبکه عصبی تخصصی برای هر دامنه مربوطه، و تطبیق آن برای اتصال مستقیم به LLM است. پیوند زدن مدل بصری بر روی عامل استدلال اصلی. بر خلاف استفاده از ابزار که در آن ابزار(های) خاص مورد استفاده توسط LLM تعیین می شود، در پیوند مدل، محققان ممکن است انتخاب کنند که در طول توسعه از مدل های خاص استفاده، اصلاح یا توسعه دهند. در دو مقاله اخیر از Google Research، نشان میدهیم که این در واقع امکانپذیر است. LLM های عصبی معمولاً متن را با نگاشت کلمات در یک فضای جاسازی برداری بردار پردازش می کنند. هر دو مقاله بر اساس ایده نگاشت داده ها از یک روش جدید در فضای جاسازی کلمه ورودی که قبلاً برای LLM آشنا بود، ساخته شده اند. اولین مقاله، “LLM های چندوجهی برای سلامتی مبتنی بر داده های خاص فردی” نشان می دهد که پیش بینی خطر آسم در Biobank انگلستان را می توان بهبود بخشید اگر ابتدا یک طبقه بندی کننده شبکه عصبی برای تفسیر اسپیروگرام ها (روشی که برای ارزیابی توانایی تنفس استفاده می شود) و آموزش دهیم. سپس خروجی آن شبکه را به عنوان ورودی به LLM تطبیق دهید.
مقاله دوم، “ELIXR: به سوی یک سیستم هوش مصنوعی اشعه ایکس با هدف کلی از طریق همترازی مدل های زبان بزرگ و رمزگذارهای بینایی رادیولوژی”، همین روش را اتخاذ می کند، اما آن را برای مدل های رمزگذار تصویر در مقیاس کامل در رادیولوژی اعمال می کند. با شروع با یک مدل پایه برای درک اشعه ایکس قفسه سینه، که قبلاً نشان داده شده است که مبنای خوبی برای ساخت انواع طبقه بندی کننده ها در این روش است، این مقاله آموزش یک سبک وزن را توصیف می کند. آداپتور اطلاعات پزشکی که خروجی لایه بالایی مدل پایه را به صورت یک سری نشانه در فضای تعبیههای ورودی LLM دوباره بیان میکند. علیرغم تنظیم دقیق نه رمزگذار بصری و نه مدل زبان، سیستم به دست آمده قابلیت هایی را نشان می دهد که برای آنها آموزش ندیده است، از جمله جستجوی معنایی و پاسخگویی به سؤالات بصری.
![]() |
رویکرد ما برای پیوند یک مدل با آموزش یک آداپتور اطلاعات پزشکی کار میکند که خروجی یک رمزگذار تصویر موجود یا تصفیهشده را به شکلی قابل درک LLM ترسیم میکند. |
پیوند مدل دارای چندین مزیت است. این از منابع محاسباتی نسبتاً متوسطی برای آموزش لایههای آداپتور استفاده میکند، اما به LLM اجازه میدهد تا بر روی مدلهای بهینهسازی شده و معتبر موجود در هر حوزه داده ایجاد کند. ماژولار کردن مشکل به اجزای رمزگذار، آداپتور و LLM همچنین میتواند آزمایش و اشکالزدایی اجزای نرمافزار جداگانه را هنگام توسعه و استقرار چنین سیستمی تسهیل کند. معایب مربوطه این است که ارتباط بین رمزگذار متخصص و LLM دیگر قابل خواندن توسط انسان نیست (مجموعه ای از بردارهای با ابعاد بالا است)، و روش پیوند نیازمند ساخت یک آداپتور جدید نه فقط برای هر رمزگذار مخصوص دامنه، بلکه برای هر رمزگذاری است. تجدید نظر از هر یک از آن رمزگذارها.
سیستم های عمومی
رادیکال ترین رویکرد برای هوش مصنوعی پزشکی چندوجهی، ساختن یک سیستم یکپارچه و کاملاً عمومی است که به طور بومی قادر به جذب اطلاعات از همه منابع است. در مقاله سوم خود در این زمینه، “به سوی هوش مصنوعی زیست پزشکی عمومی”، به جای داشتن رمزگذارها و آداپتورهای مجزا برای هر روش داده، ما بر اساس PaLM-E، یک مدل چندوجهی اخیرا منتشر شده که خود ترکیبی از یک LLM واحد است (PaLM) میسازیم. ) و یک رمزگذار دید منفرد (ViT). در این راهاندازی، روشهای دادههای متنی و جدولی توسط رمزگذار متن LLM پوشش داده میشوند، اما اکنون همه دادههای دیگر بهعنوان یک تصویر در نظر گرفته میشوند و به رمزگذار بینایی داده میشوند.
![]() |
Med-PaLM M یک مدل مولد چندوجهی بزرگ است که به طور انعطاف پذیر داده های زیست پزشکی از جمله زبان بالینی، تصویربرداری و ژنومیک را با همان وزن مدل رمزگذاری و تفسیر می کند. |
ما با تنظیم دقیق مجموعه کامل پارامترهای مدل در مجموعه داده های پزشکی که در مقاله توضیح داده شده است، PALM-E را در حوزه پزشکی تخصصی می کنیم. سیستم هوش مصنوعی پزشکی عمومی یک نسخه چندوجهی از Med-PaLM است که ما آن را Med-PaLM M می نامیم. معماری توالی به دنباله چندوجهی انعطاف پذیر به ما امکان می دهد انواع مختلفی از اطلاعات زیست پزشکی چندوجهی را در یک تعامل واحد به هم متصل کنیم. تا جایی که ما می دانیم، این اولین نمایش از یک مدل واحد است که می تواند داده های زیست پزشکی چندوجهی را تفسیر کند و طیف متنوعی از وظایف را با استفاده از مجموعه وزن های مدل یکسان در همه وظایف انجام دهد (ارزیابی های دقیق در مقاله).
این رویکرد سیستم کلی به چندوجهی، هم بلندپروازانه ترین و هم در عین حال ظریف ترین رویکردهایی است که ما توضیح می دهیم. در اصل، این رویکرد مستقیم انعطاف پذیری و انتقال اطلاعات را بین روش ها به حداکثر می رساند. بدون وجود API برای حفظ سازگاری در سراسر و بدون تکثیر لایههای آداپتور، رویکرد عمومی سادهترین طراحی را مسلماً دارد. اما همین ظرافت نیز منشأ برخی از معایب آن است. هزینههای محاسباتی اغلب بالاتر است و با یک رمزگذار چشمانداز واحد که طیف وسیعی از روشها را ارائه میکند، تخصص دامنه یا اشکالزدایی سیستم ممکن است آسیب ببیند.
واقعیت هوش مصنوعی پزشکی چندوجهی
برای استفاده حداکثری از هوش مصنوعی در پزشکی، باید قدرت سیستم های خبره آموزش دیده با هوش مصنوعی پیش بینی کننده را با انعطاف پذیری که از طریق هوش مصنوعی مولد امکان پذیر شده است، ترکیب کنیم. اینکه کدام رویکرد (یا ترکیبی از رویکردها) بیشتر در این زمینه مفید خواهد بود به عوامل متعددی بستگی دارد که هنوز ارزیابی نشده اند. آیا انعطافپذیری و سادگی یک مدل عمومی با ارزشتر از مدولار بودن پیوند مدل یا استفاده از ابزار است؟ کدام رویکرد بالاترین کیفیت را برای یک مورد خاص در دنیای واقعی ارائه می دهد؟ آیا رویکرد ارجح برای حمایت از تحقیقات پزشکی یا آموزش پزشکی در مقابل افزایش عملکرد پزشکی متفاوت است؟ پاسخ به این سؤالات مستلزم تحقیقات تجربی دقیق مداوم و ادامه همکاری مستقیم با ارائه دهندگان مراقبت های بهداشتی، موسسات پزشکی، نهادهای دولتی و شرکای صنعت مراقبت های بهداشتی به طور گسترده است. ما مشتاقانه منتظریم تا با هم پاسخ ها را پیدا کنیم.