چگونه از یادگیری ماشینی برای درک پروتئین ها استفاده می کنیم

وقتی اکثر مردم به پروتئین فکر می کنند، معمولاً ذهنشان به سمت غذاهای غنی از پروتئین مانند استیک یا توفو می رود. اما پروتئین ها بسیار بیشتر هستند. آنها برای نحوه عملکرد و رشد موجودات زنده ضروری هستند و مطالعه آنها می تواند به بهبود زندگی کمک کند. برای مثال، درمان‌های انسولین برای افراد مبتلا به دیابت که بر اساس سال‌ها مطالعه پروتئین‌ها هستند، زندگی را تغییر می‌دهند.

هنوز دنیایی از اطلاعات وجود دارد که در مورد پروتئین ها کشف نشده است – از کمک به مردم برای دریافت مراقبت های بهداشتی مورد نیاز تا یافتن راه هایی برای محافظت از گونه های گیاهی. تیم‌های Google بر روی مطالعه پروتئین‌ها متمرکز شده‌اند تا بتوانیم ماموریت Google Health برای کمک به میلیاردها نفر را برای داشتن زندگی سالم‌تر محقق کنیم.

در ماه مارس، پستی درباره مدلی که در گوگل ایجاد کردیم منتشر کردیم که عملکرد پروتئین را پیش‌بینی می‌کند و ابزاری که به دانشمندان اجازه می‌دهد از این مدل استفاده کنند. از آن زمان، تیم عملکرد پروتئین کارهای بیشتری در این فضا انجام داده است. ما با مهندس نرم افزار Max Bileschi چت کردیم تا در مورد مطالعه پروتئین ها و کاری که گوگل انجام می دهد بیشتر بدانیم.

آیا می توانید یک دوره آموزشی سریع در زمینه پروتئین ها به ما بدهید؟

پروتئین ها بسیاری از اتفاقات درون و اطراف ما مانند نحوه عملکرد ما و سایر موجودات را دیکته می کنند.

دو چیز تعیین می کند که یک پروتئین چه کاری انجام می دهد: فرمول شیمیایی و محیط آن. به عنوان مثال، ما می دانیم که هموگلوبین انسانی، پروتئینی در خون شما، اکسیژن را به اندام های شما می رساند. ما همچنین می دانیم که اگر تغییرات کوچک خاصی در فرمول شیمیایی هموگلوبین در بدن شما ایجاد شود، می تواند باعث کم خونی سلول داسی شود. علاوه بر این، ما می دانیم که خون در دماهای مختلف رفتار متفاوتی دارد زیرا پروتئین ها در دماهای بالاتر رفتار متفاوتی دارند.

پس چرا تیمی در گوگل شروع به مطالعه پروتئین ها کردند؟

ما این فرصت را داریم که ببینیم چگونه یادگیری ماشینی می تواند به زمینه های مختلف علمی کمک کند. پروتئین ها به دلیل وسعت عملکردهای شگفت انگیزی که در بدن ما و جهان دارند، یک انتخاب واضح هستند. حجم عظیمی از داده‌های عمومی وجود دارد، و در حالی که محققان فردی کار بسیار خوبی برای مطالعه پروتئین‌های خاص انجام داده‌اند، ما می‌دانیم که ما به تازگی سطح درک کامل جهان پروتئین را خراشیده‌ایم. این بسیار با ماموریت Google در سازماندهی اطلاعات و در دسترس و مفید ساختن آن هماهنگ است.

این به نظر هیجان انگیز است! در مورد استفاده از یادگیری ماشینی در تشخیص اینکه پروتئین ها چه کاری انجام می دهند و چگونه آن را در وضعیت موجود بهبود می بخشد، بیشتر به ما بگویید.

تنها حدود 1% از پروتئین ها در یک محیط آزمایشگاهی مورد مطالعه قرار گرفته اند. می‌خواهیم ببینیم که چگونه یادگیری ماشینی می‌تواند به ما کمک کند تا در مورد 99% دیگر بیاموزیم.

کار سختی است حداقل یک میلیارد پروتئین در جهان وجود دارد، و آنها در طول تاریخ تکامل یافته اند و توسط همان نیروهای انتخاب طبیعی شکل گرفته اند که ما معمولا تصور می کنیم بر روی DNA عمل می کنند. درک این ارتباط تکاملی بین پروتئین ها مفید است. وجود یک پروتئین مشابه در دو یا چند موجود زنده مرتبط (مثلا انسان و گورخرماهی) می تواند نشان دهنده مفید بودن آن برای بقا باشد. پروتئین هایی که نزدیک به هم هستند می توانند عملکردهای مشابهی داشته باشند اما با تفاوت های کوچک، مانند تشویق یک واکنش شیمیایی یکسان، اما انجام این کار در دماهای مختلف. گاهی اوقات تشخیص اینکه دو پروتئین به هم نزدیک هستند آسان است، اما در بعضی مواقع دشوار است. این اولین مشکل در حاشیه نویسی عملکرد پروتئین بود که با یادگیری ماشینی به آن پرداختیم.

یادگیری ماشینی بهترین کمک را زمانی می کند که واقعاً باشد کمک می کندتکنیک های فعلی را جایگزین نمی کند. به عنوان مثال، ما نشان دادیم که حدود 300 پروتئین که قبلا مشخص نشده بودند به پروتئین های “کاپسید فاژ” مرتبط هستند. این پروتئین‌های کپسید می‌توانند به ما کمک کنند داروها را به سلول‌هایی که واقعاً به آنها نیاز دارند، برسانیم. ما با یک پایگاه داده پروتئینی قابل اعتماد، Pfam، کار کردیم تا فرضیه خود را تأیید کنیم، و اکنون این پروتئین‌ها به عنوان مرتبط با پروتئین‌های کپسید فاژ فهرست شده‌اند – برای دیدن همه مردم – از جمله محققان.

کمی پشتیبان بگیرید آیا می توانید توضیح دهید که پایگاه داده خانواده پروتئین Pfam چیست؟ تیم شما چگونه به این پایگاه داده کمک کرده است؟

جامعه ای از دانشمندان تعدادی ابزار و پایگاه داده در طول دهه ها ساخته اند تا به طبقه بندی آنچه هر پروتئین مختلف انجام می دهد کمک کند. Pfam یکی از پر استفاده ترین پایگاه های داده است و پروتئین ها را به حدود 20000 نوع پروتئین طبقه بندی می کند.

این کار طبقه‌بندی پروتئین‌ها هم به مدل‌های کامپیوتری و هم به متخصصان (موسوم به متصدیان) نیاز دارد تا مدل‌های رایانه‌ای را تأیید و بهبود بخشند.

سئو PBN | خبر های جدید سئو و هک و سرور