وقتی اکثر مردم به پروتئین فکر می کنند، معمولاً ذهنشان به سمت غذاهای غنی از پروتئین مانند استیک یا توفو می رود. اما پروتئین ها بسیار بیشتر هستند. آنها برای نحوه عملکرد و رشد موجودات زنده ضروری هستند و مطالعه آنها می تواند به بهبود زندگی کمک کند. برای مثال، درمانهای انسولین برای افراد مبتلا به دیابت که بر اساس سالها مطالعه پروتئینها هستند، زندگی را تغییر میدهند.
هنوز دنیایی از اطلاعات وجود دارد که در مورد پروتئین ها کشف نشده است – از کمک به مردم برای دریافت مراقبت های بهداشتی مورد نیاز تا یافتن راه هایی برای محافظت از گونه های گیاهی. تیمهای Google بر روی مطالعه پروتئینها متمرکز شدهاند تا بتوانیم ماموریت Google Health برای کمک به میلیاردها نفر را برای داشتن زندگی سالمتر محقق کنیم.
در ماه مارس، پستی درباره مدلی که در گوگل ایجاد کردیم منتشر کردیم که عملکرد پروتئین را پیشبینی میکند و ابزاری که به دانشمندان اجازه میدهد از این مدل استفاده کنند. از آن زمان، تیم عملکرد پروتئین کارهای بیشتری در این فضا انجام داده است. ما با مهندس نرم افزار Max Bileschi چت کردیم تا در مورد مطالعه پروتئین ها و کاری که گوگل انجام می دهد بیشتر بدانیم.
آیا می توانید یک دوره آموزشی سریع در زمینه پروتئین ها به ما بدهید؟
پروتئین ها بسیاری از اتفاقات درون و اطراف ما مانند نحوه عملکرد ما و سایر موجودات را دیکته می کنند.
دو چیز تعیین می کند که یک پروتئین چه کاری انجام می دهد: فرمول شیمیایی و محیط آن. به عنوان مثال، ما می دانیم که هموگلوبین انسانی، پروتئینی در خون شما، اکسیژن را به اندام های شما می رساند. ما همچنین می دانیم که اگر تغییرات کوچک خاصی در فرمول شیمیایی هموگلوبین در بدن شما ایجاد شود، می تواند باعث کم خونی سلول داسی شود. علاوه بر این، ما می دانیم که خون در دماهای مختلف رفتار متفاوتی دارد زیرا پروتئین ها در دماهای بالاتر رفتار متفاوتی دارند.
پس چرا تیمی در گوگل شروع به مطالعه پروتئین ها کردند؟
ما این فرصت را داریم که ببینیم چگونه یادگیری ماشینی می تواند به زمینه های مختلف علمی کمک کند. پروتئین ها به دلیل وسعت عملکردهای شگفت انگیزی که در بدن ما و جهان دارند، یک انتخاب واضح هستند. حجم عظیمی از دادههای عمومی وجود دارد، و در حالی که محققان فردی کار بسیار خوبی برای مطالعه پروتئینهای خاص انجام دادهاند، ما میدانیم که ما به تازگی سطح درک کامل جهان پروتئین را خراشیدهایم. این بسیار با ماموریت Google در سازماندهی اطلاعات و در دسترس و مفید ساختن آن هماهنگ است.
این به نظر هیجان انگیز است! در مورد استفاده از یادگیری ماشینی در تشخیص اینکه پروتئین ها چه کاری انجام می دهند و چگونه آن را در وضعیت موجود بهبود می بخشد، بیشتر به ما بگویید.
تنها حدود 1% از پروتئین ها در یک محیط آزمایشگاهی مورد مطالعه قرار گرفته اند. میخواهیم ببینیم که چگونه یادگیری ماشینی میتواند به ما کمک کند تا در مورد 99% دیگر بیاموزیم.
کار سختی است حداقل یک میلیارد پروتئین در جهان وجود دارد، و آنها در طول تاریخ تکامل یافته اند و توسط همان نیروهای انتخاب طبیعی شکل گرفته اند که ما معمولا تصور می کنیم بر روی DNA عمل می کنند. درک این ارتباط تکاملی بین پروتئین ها مفید است. وجود یک پروتئین مشابه در دو یا چند موجود زنده مرتبط (مثلا انسان و گورخرماهی) می تواند نشان دهنده مفید بودن آن برای بقا باشد. پروتئین هایی که نزدیک به هم هستند می توانند عملکردهای مشابهی داشته باشند اما با تفاوت های کوچک، مانند تشویق یک واکنش شیمیایی یکسان، اما انجام این کار در دماهای مختلف. گاهی اوقات تشخیص اینکه دو پروتئین به هم نزدیک هستند آسان است، اما در بعضی مواقع دشوار است. این اولین مشکل در حاشیه نویسی عملکرد پروتئین بود که با یادگیری ماشینی به آن پرداختیم.
یادگیری ماشینی بهترین کمک را زمانی می کند که واقعاً باشد کمک می کندتکنیک های فعلی را جایگزین نمی کند. به عنوان مثال، ما نشان دادیم که حدود 300 پروتئین که قبلا مشخص نشده بودند به پروتئین های “کاپسید فاژ” مرتبط هستند. این پروتئینهای کپسید میتوانند به ما کمک کنند داروها را به سلولهایی که واقعاً به آنها نیاز دارند، برسانیم. ما با یک پایگاه داده پروتئینی قابل اعتماد، Pfam، کار کردیم تا فرضیه خود را تأیید کنیم، و اکنون این پروتئینها به عنوان مرتبط با پروتئینهای کپسید فاژ فهرست شدهاند – برای دیدن همه مردم – از جمله محققان.
کمی پشتیبان بگیرید آیا می توانید توضیح دهید که پایگاه داده خانواده پروتئین Pfam چیست؟ تیم شما چگونه به این پایگاه داده کمک کرده است؟
جامعه ای از دانشمندان تعدادی ابزار و پایگاه داده در طول دهه ها ساخته اند تا به طبقه بندی آنچه هر پروتئین مختلف انجام می دهد کمک کند. Pfam یکی از پر استفاده ترین پایگاه های داده است و پروتئین ها را به حدود 20000 نوع پروتئین طبقه بندی می کند.
این کار طبقهبندی پروتئینها هم به مدلهای کامپیوتری و هم به متخصصان (موسوم به متصدیان) نیاز دارد تا مدلهای رایانهای را تأیید و بهبود بخشند.