استفاده از نقشه های مولکولی برای درک بو

آیا تا به حال سعی کرده اید یک بو را اندازه گیری کنید؟ … تا زمانی که نتوانید شباهت ها و تفاوت های آنها را اندازه بگیرید، نمی توانید علم بو داشته باشید. اگر برای یافتن علم جدیدی جاه طلب هستید، بو را اندازه بگیرید.
– الکساندر گراهام بل، 1914.

چگونه می توان یک بو را اندازه می گیریم؟ بوها توسط مولکول هایی تولید می شوند که در هوا پخش می شوند، وارد بینی ما می شوند و به گیرنده های حسی متصل می شوند. به طور بالقوه میلیاردها مولکول می توانند بو تولید کنند، بنابراین تعیین اینکه کدام یک کدام بو را تولید می کنند، فهرست بندی یا پیش بینی دشوار است. حسی نقشه ها می تواند به ما در حل این مشکل کمک کند. دید رنگی آشناترین نمونه‌های این نقشه‌ها را دارد، از چرخه رنگی که هرکدام در مدرسه ابتدایی یاد می‌گیریم تا انواع پیچیده‌تر که برای انجام تصحیح رنگ در تولید ویدئو استفاده می‌شوند. در حالی که این نقشه‌ها برای قرن‌ها وجود داشته‌اند، نقشه‌های مفیدی برای بو وجود ندارد، زیرا شکستن بو مشکل سخت‌تری است: مولکول‌ها به روش‌های بسیار بیشتری نسبت به فوتون‌ها متفاوت هستند. جمع آوری داده ها مستلزم نزدیکی فیزیکی بین بو و بو است (ما “دوربین” بوی خوب و “مانیتور” بوی خوب نداریم). و چشم انسان فقط سه گیرنده حسی برای رنگ دارد در حالی که بینی انسان بیش از 300 گیرنده برای بو دارد. در نتیجه، تلاش‌های قبلی برای تولید نقشه‌های بو با شکست مواجه شده است.

در سال 2019، ما یک مدل شبکه عصبی گراف (GNN) را توسعه دادیم که شروع به کاوش هزاران نمونه از مولکول‌های متمایز جفت شده با برچسب‌های بویی که آنها را برمی‌انگیزد، به‌عنوان مثال، «گوشتی»، «گل» یا «نعناع» برای یادگیری رابطه بین ساختار یک مولکول و احتمال اینکه چنین مولکولی دارای هر برچسب بو باشد. فضای جاسازی این مدل شامل نمایشی از هر مولکول به عنوان یک بردار با طول ثابت است که آن مولکول را از نظر بوی آن توصیف می کند، دقیقاً به همان اندازه که مقدار RGB یک محرک بصری رنگ آن را توصیف می کند.

ترک کرد: نمونه ای از نقشه رنگی (CIE 1931) که در آن مختصات می توانند مستقیماً به مقادیر رنگ و اشباع تبدیل شوند. رنگ های مشابه در نزدیکی یکدیگر قرار دارند و طول موج های خاص نور (و ترکیبی از آنها) را می توان با موقعیت های روی نقشه شناسایی کرد. درست: بوها در نقشه اصلی بو به طور مشابه عمل می کنند. مولکول های منفرد با نقاط (خاکستری) مطابقت دارند و مکان این نقاط منعکس کننده پیش بینی ها از ویژگی بو آنها است.

امروز “نقشه بوی اصلی” (POM) را معرفی می کنیم که نمایش برداری هر مولکول بدبو را در فضای جاسازی مدل به عنوان یک نقطه واحد در فضایی با ابعاد بالا شناسایی می کند. POM دارای ویژگی های یک نقشه حسی است: اول، جفت بوهای مشابه از نظر ادراکی با دو نقطه مجاور در POM مطابقت دارند (بر اساس قیاس، قرمز به نارنجی نزدیکتر است تا سبز در چرخه رنگ). دوم، POM ما را قادر می سازد تا بوهای جدید و مولکول هایی را که آنها را تولید می کنند، پیش بینی و کشف کنیم. در مجموعه‌ای از مقالات، نشان می‌دهیم که این نقشه می‌تواند برای پیش‌بینی آینده‌نگر خواص بوی مولکول‌ها، درک این ویژگی‌ها از نظر زیست‌شناسی بنیادی، و مقابله با مشکلات بهداشتی جهانی مورد استفاده قرار گیرد. در زیر به هر یک از این کاربردهای امیدوارکننده POM و نحوه آزمایش آنها می پردازیم.

تست 1: به چالش کشیدن مدل با مولکول‌هایی که قبلا بویی نمی‌دادند
ابتدا، ما پرسیدیم که آیا مدل زیربنایی می تواند به درستی بوها را پیش بینی کند جدید مولکول هایی که هیچ کس تا به حال بوی آنها را نبویده بود و بسیار بودند ناهمسان از مولکول های مورد استفاده در طول توسعه مدل. این یک آزمایش مهم است – بسیاری از مدل‌ها بر روی داده‌هایی که شبیه به آنچه مدل قبلاً دیده است، عملکرد خوبی دارند، اما وقتی روی موارد جدید آزمایش می‌شوند، خراب می‌شوند.

برای آزمایش این، ما بزرگترین مجموعه داده توصیف بو برای مولکول های جدید را جمع آوری کردیم. شرکای ما در مرکز مونل به پانل‌ها آموزش دادند تا بوی هر یک از 400 مولکول را با استفاده از 55 برچسب متمایز (مثلاً “نعناع”) ارزیابی کنند که برای پوشش دادن فضای بوهای احتمالی انتخاب شده‌اند در حالی که نه زائد و نه خیلی کم هستند. جای تعجب نیست، ما متوجه شدیم که افراد مختلف خصوصیات متفاوتی از یک مولکول دارند. به همین دلیل است که تحقیقات حسی معمولاً از پانل‌هایی متشکل از ده‌ها یا صدها نفر استفاده می‌کند و نشان می‌دهد که چرا بو مشکلی دشوار برای حل است. به جای اینکه ببینیم آیا این مدل می‌تواند با هر یک از افراد مطابقت داشته باشد یا خیر، ما پرسیدیم که چقدر به اجماع نزدیک است: میانگین در میان همه شرکت‌کنندگان در جلسه. ما دریافتیم که پیش‌بینی‌های مدل به اجماع نزدیک‌تر از میانگین پانل‌گرایان بود. به عبارت دیگر، این مدل توانایی استثنایی در پیش‌بینی بو از ساختار یک مولکول را نشان داد.

پیش‌بینی‌های انجام شده توسط دو مدل، مدل GNN ما (نارنجی) و یک مدل جنگل تصادفی شیمی‌انفورماتیک (RF) (آبی)، در مقایسه با میانگین رتبه‌بندی‌های ارائه‌شده توسط پانل‌های آموزش دیده (سبز) برای مولکول 2،3-دی هیدروبنزوفوران-5-کربوکسالدئید . هر نوار مربوط به یک برچسب کاراکتر بو است (برای وضوح فقط 17 مورد از 55 مورد بالا نشان داده شده است). پنج مورد برتر با رنگ مشخص شده اند. مدل ما به درستی چهار مورد از پنج مورد برتر را با اطمینان بالا، در مقابل تنها سه مورد از پنج، با اطمینان کم، برای مدل RF شناسایی می‌کند. همبستگی (R) با مجموعه کامل 55 برچسب نیز در مدل ما بالاتر است.

بر خلاف مدل‌های معیار جایگزین (RF و مدل‌های نزدیک‌ترین همسایه که بر روی مجموعه‌های مختلفی از ویژگی‌های شیمی‌انفورماتیک آموزش دیده‌اند)، مدل GNN ما در پیش‌بینی میانگین رتبه‌بندی پانل از پانل‌گر انسانی میانه بهتر عمل می‌کند. به عبارت دیگر، مدل GNN ما، اجماع پانل را بهتر از پانلیست معمولی منعکس می کند.

POM همچنین عملکرد پیشرفته‌ای را در وظایف جایگزین بویایی انسان مانند تشخیص قدرت بو یا شباهت بوهای مختلف به نمایش گذاشت. بنابراین، با استفاده از POM، می توان کیفیت بوی هر یک از میلیاردها مولکول بودار ناشناخته را با کاربردهای گسترده در طعم و عطر پیش بینی کرد.

تست 2: ارتباط کیفیت بو به زیست شناسی بنیادی
از آنجایی که نقشه اصلی بو در پیش‌بینی ادراک بوی انسان مفید بود، از ما پرسیدیم که آیا می‌تواند درک بو در حیوانات و فعالیت مغزی را که زیربنای آن است نیز پیش‌بینی کند. ما دریافتیم که این نقشه می تواند با موفقیت فعالیت گیرنده های حسی، نورون ها و رفتار را در اکثر حیواناتی که دانشمندان علوم اعصاب بویایی مطالعه کرده اند، از جمله موش ها و حشرات، پیش بینی کند.

کدام ویژگی مشترک جهان طبیعی باعث می شود که این نقشه برای گونه هایی که صدها میلیون سال تکامل از هم جدا شده اند قابل استفاده باشد؟ ما متوجه شدیم که هدف مشترک توانایی بویایی ممکن است تشخیص و تمایز بین حالات متابولیکی باشد، به عنوان مثال، تشخیص اینکه چه زمانی رسیده است در مقابل پوسیده، مغذی در مقابل بی اثر، یا سالم است در مقابل بیمار. ما داده‌هایی را در مورد واکنش‌های متابولیک در ده‌ها گونه در سراسر قلمرو زندگی جمع‌آوری کردیم و دریافتیم که این نقشه با خود متابولیسم مطابقت دارد. طبق نقشه، وقتی دو مولکول از نظر بو از هم فاصله دارند، برای تبدیل یکی به دیگری به یک سری واکنش‌های متابولیکی طولانی نیاز است. در مقابل، مولکول های بویایی مشابه تنها با یک یا چند واکنش از هم جدا می شوند. حتی مسیرهای واکنش طولانی که شامل مراحل زیادی هستند، مسیرهای صاف را در نقشه دنبال می کنند. و مولکول هایی که همزمان در مواد طبیعی یکسانی (مثلاً پرتقال) وجود دارند، اغلب روی نقشه به صورت کاملاً محکم قرار می گیرند. POM نشان می‌دهد که بویایی از طریق ساختار متابولیسم با دنیای طبیعی ما مرتبط است و شاید به‌طور شگفت‌انگیزی، اصول اساسی زیست‌شناسی را در بر می‌گیرد.

ترک کرد: ما واکنش های متابولیک موجود در 17 گونه در 4 پادشاهی را جمع آوری کردیم تا یک نمودار متابولیک ایجاد کنیم. در این تصویر، هر دایره یک مولکول متابولیت متمایز است و یک فلش نشان می دهد که یک واکنش متابولیکی وجود دارد که یک مولکول را به مولکول دیگر تبدیل می کند. برخی از متابولیت ها بو (رنگ) دارند و برخی دیگر (خاکستری) ندارند و فاصله متابولیک بین دو متابولیت بدبو حداقل تعداد واکنش لازم برای تبدیل یکی به دیگری است. در مسیری که به صورت پررنگ نشان داده شده است، فاصله 3 است. درست: فاصله متابولیک بسیار با فاصله در POM، تخمینی از عدم تشابه بو درک شده، مرتبط بود.

تست 3: گسترش مدل برای مقابله با یک چالش جهانی بهداشت
نقشه ای از بو که به شدت با ادراک و زیست شناسی در سراسر قلمرو حیوانات مرتبط است، درهای جدیدی را باز می کند. پشه ها و سایر آفات حشرات تا حدودی به سمت انسان کشیده می شوند آنها درک بو از آنجایی که POM می تواند برای پیش بینی بویایی حیوانات به طور کلی استفاده شود، ما آن را برای مقابله با یکی از بزرگترین مشکلات بشریت، یعنی معضل بیماری های منتقل شده توسط پشه ها و کنه ها، که هر ساله صدها هزار نفر را می کشند، دوباره آموزش دادیم.

برای این منظور، مدل اصلی خود را با دو منبع داده جدید بهبود دادیم: (1) مجموعه ای از آزمایشات فراموش شده که توسط USDA بر روی داوطلبان انسانی انجام شد که از 80 سال پیش شروع شد و اخیراً توسط Google Books قابل کشف شد، که متعاقباً آن را ماشین ساختیم. -خواندنی؛ و (2) مجموعه داده جدیدی که توسط شرکای ما در TropIQ جمع آوری شده است، با استفاده از سنجش پشه آزمایشگاهی با کارایی بالا. هر دو مجموعه داده اندازه‌گیری می‌کنند که یک مولکول مشخص چقدر پشه‌ها را دور نگه می‌دارد. با هم، مدل به دست آمده می‌تواند پشه‌گریزی تقریباً هر مولکولی را پیش‌بینی کند و یک صفحه مجازی را بر روی بخش‌های عظیمی از فضای مولکولی امکان‌پذیر کند. ما این صفحه نمایش را با استفاده از مولکول‌های کاملاً جدید تأیید کردیم و بیش از ده مورد از آنها را با دافع حداقل به اندازه DEET، ماده فعال در اکثر دافع حشرات، یافتیم. دافع‌های ارزان‌تر، ماندگارتر و ایمن‌تر می‌توانند بروز بیماری‌هایی مانند مالاریا را در سراسر جهان کاهش دهند و به طور بالقوه جان افراد بی‌شماری را نجات دهند.

ما داده‌های دافع پشه USDA را برای هزاران مولکول که قبلاً توسط Google Books اسکن شده بود دیجیتالی کردیم و از آن برای اصلاح نمایش آموخته‌شده (نقشه) در قلب مدل استفاده کردیم. ما لایه‌های اضافی را اضافه کردیم، به‌ویژه برای پیش‌بینی دفع‌پذیری در سنجش تغذیه پشه، و به‌طور مکرر این مدل را برای بهبود پیش‌بینی‌های سنجش در حین اجرای صفحه‌های محاسباتی برای دافع‌کننده‌های کاندید آموزش دادیم.
بسیاری از مولکول‌هایی که دافع پشه‌ها را در آزمایش آزمایشگاهی نشان می‌دهند، وقتی روی انسان اعمال می‌شوند نیز دافعه‌ای نشان می‌دهند. چندین دافع بیشتر از رایج ترین دافع های مورد استفاده امروزی (DEET و پیکاریدین) نشان دادند.

جاده پیش رو
ما کشف کردیم که رویکرد مدل‌سازی ما برای پیش‌بینی بو می‌تواند برای ترسیم نقشه اصلی بو برای مقابله با مشکلات مربوط به بو به طور کلی استفاده شود. این نقشه کلید اندازه گیری بو بود: به طیف وسیعی از سؤالات در مورد بوهای جدید و مولکول هایی که آنها را تولید می کنند پاسخ داد، بوها را به منشأ آنها در تکامل و جهان طبیعی مرتبط کرد و به ما کمک می کند تا با چالش های مهم سلامت انسان مقابله کنیم. که میلیون ها نفر را تحت تاثیر قرار می دهد. در ادامه، امیدواریم بتوان از این رویکرد برای یافتن راه‌حل‌های جدید برای مشکلات موجود در فرمولاسیون مواد غذایی و عطر، نظارت بر کیفیت محیطی و تشخیص بیماری‌های انسانی و حیوانی استفاده کرد.

سپاسگزاریها
این کار توسط تیم تحقیقاتی بویایی ML، از جمله بنجامین سانچز-لنگلینگ، برایان کی لی، جنیفر ان. وی، وسلی دبلیو کیان و جیک یاسونیک (دو مورد آخر تا حدی توسط برنامه پژوهشگر دانشجوی گوگل پشتیبانی می‌شوند) و شرکای خارجی ما از جمله Emily Mayhew و Joel D. Mainland از مرکز Monell، و Koen Dechering و Marnix Vlot از TropIQ. تیم Google Books مجموعه داده USDA را آنلاین آورد. ریچارد سی. گرکین توسط برنامه Google Visiting Faculty Researcher پشتیبانی شد و همچنین استادیار پژوهشی در دانشگاه ایالتی آریزونا است.