ترانسفورماتورهای مقیاس برای داده های ساختاریافته گراف - وبلاگ تحقیقاتی گوگل - سئو PBN

ارسال شده توسط Ameya Velingker، دانشمند پژوهشی، Google Research، و Balaji Venkatachalam، مهندس نرم افزار، Google

نمودارها که در آنها اشیاء و روابط آنها به صورت گره (یا رئوس) و یال (یا پیوند) بین جفت گره ها نشان داده می شود، در محاسبات و یادگیری ماشین (ML) همه جا حاضر هستند. به عنوان مثال، شبکه‌های اجتماعی، شبکه‌های جاده‌ای و ساختار مولکولی و تعاملات همگی حوزه‌هایی هستند که مجموعه داده‌های زیربنایی دارای ساختار نمودار طبیعی هستند. ML می تواند برای یادگیری ویژگی های گره ها، یال ها یا کل نمودارها استفاده شود.

یک رویکرد رایج برای یادگیری بر روی نمودارها، شبکه‌های عصبی گراف (GNNs) هستند که بر روی داده‌های گراف با اعمال یک تبدیل بهینه‌سازی روی گره، لبه و ویژگی‌های سراسری کار می‌کنند. معمولی‌ترین کلاس GNN‌ها از طریق یک چارچوب ارسال پیام عمل می‌کنند، که به موجب آن هر لایه نمایش یک گره را با گره‌های همسایه‌های فوری خود جمع می‌کند.

اخیراً، مدل‌های ترانسفورماتور گراف به عنوان یک جایگزین محبوب برای GNN‌های ارسال پیام ظاهر شده‌اند. این مدل‌ها بر پایه موفقیت معماری‌های ترانسفورماتور در پردازش زبان طبیعی (NLP) ساخته شده و آنها را با داده‌های ساختار یافته گراف تطبیق می‌دهد. مکانیسم توجه در ترانسفورماتورهای گراف را می توان با یک نمودار تعاملی مدل کرد، که در آن لبه ها نشان دهنده جفت گره هایی هستند که به یکدیگر توجه دارند. برخلاف معماری های ارسال پیام، ترانسفورماتورهای گراف دارای یک گراف تعاملی هستند که جدا از گراف ورودی است. نمودار تعامل معمولی یک نمودار کامل است که نشان دهنده مکانیسم توجه کامل است که تعامل مستقیم بین تمام جفت گره ها را مدل می کند. با این حال، این گلوگاه محاسباتی و حافظه درجه دوم ایجاد می کند که کاربرد ترانسفورماتورهای گراف را به مجموعه داده ها در نمودارهای کوچک با حداکثر چند هزار گره محدود می کند. مقیاس پذیر ساختن ترانسفورماتورهای گراف یکی از مهم ترین جهت های تحقیقاتی در این زمینه در نظر گرفته شده است (اولین مسئله باز را اینجا ببینید).

یک درمان طبیعی استفاده از الف است پراکنده نمودار تعامل با لبه های کمتر بسیاری از ترانسفورماتورهای پراکنده و کارآمد برای حذف گلوگاه درجه دوم برای دنباله‌ها پیشنهاد شده‌اند، با این حال، آنها معمولاً به صورت اصولی به نمودارها گسترش نمی‌یابند.

در “Exphormer: ترانسفورماتورهای پراکنده برای نمودارها”، ارائه شده در ICML 2023، با معرفی یک چارچوب توجه پراکنده برای ترانسفورماتورها که به طور خاص برای داده های گراف طراحی شده است، به چالش مقیاس پذیری می پردازیم. چارچوب Exphormer از نمودارهای بسط دهنده استفاده می کند، ابزاری قدرتمند از نظریه گراف طیفی، و قادر به دستیابی به نتایج تجربی قوی در طیف گسترده ای از مجموعه داده ها است. پیاده سازی Exphormer ما اکنون در GitHub در دسترس است.

نمودارهای بسط دهنده

یک ایده کلیدی در قلب Exphormer استفاده از نمودارهای بسط دهنده است که نمودارهای پراکنده و در عین حال به خوبی به هم پیوسته هستند که دارای برخی ویژگی های مفید هستند – 1) نمایش ماتریسی نمودارها دارای ویژگی های خطی-جبری مشابه یک نمودار کامل است، و 2 ) آنها اختلاط سریع پیاده روی های تصادفی را نشان می دهند، به عنوان مثال، تعداد کمی از مراحل در یک پیاده روی تصادفی از هر گره شروع برای اطمینان از همگرایی به یک توزیع “پایدار” روی گره های نمودار کافی است. توسعه دهندگان کاربردهایی را در زمینه های مختلفی مانند الگوریتم ها، شبه تصادفی، نظریه پیچیدگی و کدهای تصحیح خطا پیدا کرده اند.

یک کلاس رایج از نمودارهای بسط دهنده هستند دمنبسط کننده های منظم که در آنها وجود دارد د لبه های هر گره (یعنی هر گره دارای درجه است د). کیفیت یک نمودار بسط دهنده با آن اندازه گیری می شود شکاف طیفییک ویژگی جبری ماتریس مجاورت آن (نمایش ماتریسی از نمودار که در آن سطرها و ستون ها توسط گره ها نمایه می شوند و ورودی ها نشان می دهد که آیا جفت گره ها با یک یال به هم متصل شده اند). آنهایی که شکاف طیفی را به حداکثر می‌رسانند، به عنوان نمودارهای رامانوجان شناخته می‌شوند – آنها به یک شکاف می‌رسند د – 2*√(د-1) که اساساً بهترین ممکن در میان است د– نمودارهای منظم تعدادی از ساختارهای قطعی و تصادفی گراف های رامانوجان در طول سال ها برای مقادیر مختلف پیشنهاد شده است. د. ما از یک ساختار بسط دهنده تصادفی فریدمن استفاده می کنیم که نمودارهای نزدیک به رامانوجان را تولید می کند.

نمودارهای بسط دهنده در قلب Exphormer قرار دارند. یک بسط دهنده خوب کم است و در عین حال اختلاط سریع پیاده روی های تصادفی را نشان می دهد و اتصال جهانی آن را برای یک نمودار تعامل در مدل ترانسفورماتور گراف مناسب می کند.

Exphormer نمودار تعامل متراکم و کاملاً متصل یک ترانسفورماتور استاندارد را با لبه های پراکنده جایگزین می کند. د– نمودار منبسط کننده منظم به طور شهودی، تقریب طیفی و خواص اختلاط یک گراف بسط دهنده به گره های دور اجازه می دهد تا پس از روی هم گذاشتن چندین لایه توجه در معماری ترانسفورماتور گراف، با یکدیگر ارتباط برقرار کنند، حتی اگر گره ها ممکن است مستقیماً به یکدیگر توجه نکنند. علاوه بر این، با اطمینان از آن د ثابت است (مستقل از اندازه تعداد گره ها)، تعداد خطی یال ها را در نمودار تعامل حاصل به دست می آوریم.

Exphormer: ساخت یک نمودار تعامل پراکنده

Exphormer لبه های توسعه دهنده را با گراف ورودی و گره های مجازی ترکیب می کند. به طور خاص، مکانیسم توجه پراکنده Exphormer یک نمودار تعاملی متشکل از سه نوع یال ایجاد می کند:

لبه های نمودار ورودی (توجه محلی)
یال های یک نمودار بسط دهنده با درجه ثابت (توجه گسترش دهنده)
لبه ها از هر گره به مجموعه کوچکی از گره های مجازی (توجه جهانی)

Exphormer با ترکیب سه نوع یال، یک نمودار تعاملی ایجاد می کند. نمودار به دست آمده دارای ویژگی های اتصال خوبی است و بایاس استقرایی نمودار مجموعه داده ورودی را در حالی که هنوز پراکنده است حفظ می کند.

هر جزء هدف خاصی را دنبال می کند: لبه های نمودار ورودی، سوگیری استقرایی ساختار گراف ورودی را حفظ می کنند (که معمولاً در یک ماژول توجه کاملاً متصل گم می شود). در همین حال، لبه های گسترش دهنده امکان اتصال جهانی خوب و ویژگی های اختلاط تصادفی پیاده روی را فراهم می کند (که از نظر طیفی نمودار کامل را با لبه های بسیار کمتر تقریب می زند). در نهایت، گره های مجازی به عنوان «حافظه های حافظه» جهانی عمل می کنند که می توانند مستقیماً با هر گره ارتباط برقرار کنند. در حالی که این منجر به لبه‌های اضافی از هر گره مجازی برابر با تعداد گره‌ها در نمودار ورودی می‌شود، نمودار حاصل هنوز پراکنده است. درجه گراف بسط دهنده و تعداد گره های مجازی فراپارامترهایی هستند که برای بهبود معیارهای کیفیت تنظیم می شوند.

علاوه بر این، از آنجایی که ما از یک نمودار بسط دهنده با درجه ثابت و تعداد ثابت کوچکی از گره های مجازی برای توجه کلی استفاده می کنیم، مکانیسم توجه پراکنده حاصل در اندازه نمودار ورودی اصلی خطی است، یعنی تعدادی از تعاملات مستقیم را در ترتیب تعداد کل گره ها و لبه ها.

ما علاوه بر این نشان می‌دهیم که Exhormer به اندازه ترانسفورماتور متراکم رسا است و از خواص تقریب جهانی پیروی می‌کند. به ویژه، هنگامی که نمودار توجه پراکنده Exphormer با حلقه های خود (لبه هایی که یک گره را به خود متصل می کند) تقویت می شود، می تواند به طور کلی توابع پیوسته را تقریب کند. [1, 2].

ارتباط با ترانسفورماتورهای پراکنده برای دنباله ها

مقایسه اکسفرمر با روش‌های توجه پراکنده برای دنباله‌ها جالب است. شاید معماری از لحاظ مفهومی شبیه به رویکرد ما BigBird باشد که با ترکیب اجزای مختلف یک نمودار تعاملی ایجاد می کند. BigBird همچنین از گره‌های مجازی استفاده می‌کند، اما برخلاف Exhormer، از توجه به پنجره و توجه تصادفی از مدل نمودار تصادفی Erdős-Rényi برای اجزای باقی‌مانده استفاده می‌کند.

توجه پنجره در BigBird به توکن‌هایی که یک نشانه را احاطه کرده‌اند در یک دنباله نگاه می‌کند – توجه محله محلی در Exphormer را می‌توان به عنوان تعمیم توجه پنجره به نمودارها مشاهده کرد.

نمودار Erdős-Rényi در n گره ها، G(n، p)، که هر جفت گره را به طور مستقل با احتمال به هم متصل می کند پ، همچنین به عنوان یک گراف بسط دهنده برای مقدار مناسب عمل می کند پ. با این حال، تعداد فوق خطی لبه ها (Ω(n ورود به سیستم n)) برای اطمینان از اتصال گراف Erdős-Rényi لازم است، چه رسد به یک بسط دهنده خوب. از طرفی بسط دهنده های مورد استفاده در اکسفرمر فقط دارای الف هستند خطی تعداد لبه ها

نتایج تجربی

کارهای قبلی استفاده از مدل‌های مبتنی بر ترانسفورماتور گراف کامل را در مجموعه‌های داده با نمودارهایی با اندازه تا 5000 گره نشان داده‌اند. برای ارزیابی عملکرد Exphormer، ما از چارچوب معروف GraphGPS استفاده می کنیم [3]، که هم ترانسفورماتورهای ارسال پیام و هم گراف را با هم ترکیب می کند و به عملکرد پیشرفته ای در تعدادی از مجموعه داده ها دست می یابد. ما نشان می‌دهیم که جایگزین کردن توجه متراکم با Exphormer برای مؤلفه توجه نمودار در چارچوب GraphGPS به فرد امکان می‌دهد به مدل‌هایی با عملکرد قابل مقایسه یا بهتر، اغلب با پارامترهای آموزش‌پذیر کمتر، دست یابد.

علاوه بر این، Exphormer به طور مشخص به معماری‌های ترانسفورماتور گراف اجازه می‌دهد تا فراتر از محدودیت‌های اندازه نمودار معمولی که در بالا ذکر شد، مقیاس شوند. Exphormer می تواند تا مجموعه داده های بیش از 10000 گراف گره، مانند مجموعه داده Coauthor، و حتی فراتر از آن را به نمودارهای بزرگتر مانند مجموعه داده معروف ogbn-arxiv، یک شبکه استنادی که از 170K گره و 1.1 میلیون یال تشکیل شده است، مقیاس کند.

نتایج مقایسه Exphormer با GraphGPS استاندارد در پنج مجموعه داده معیار نمودار برد بلند. ما توجه می‌کنیم که Exhormer در زمان انتشار مقاله به نتایج پیشرفته‌ای در چهار مورد از پنج مجموعه داده (PascalVOC-SP، COCO-SP، Peptides-Struct، PCQM-Contact) دست یافت.

در نهایت، مشاهده می کنیم که Exphormer، که یک نمودار پوششی با قطر کوچک از طریق بسط دهنده ها ایجاد می کند، توانایی یادگیری موثر وابستگی های دوربرد را نشان می دهد. Long Range Graph Benchmark مجموعه‌ای از پنج مجموعه داده یادگیری نمودار است که برای اندازه‌گیری توانایی مدل‌ها برای ثبت تعاملات دوربرد طراحی شده است. نتایج نشان می‌دهد که مدل‌های مبتنی بر Exphormer از مدل‌های استاندارد GraphGPS (که قبلاً در زمان انتشار در چهار مجموعه از پنج مجموعه داده پیشرفته بودند) بهتر عمل می‌کنند.

نتیجه

ترانسفورماتورهای گراف به عنوان یک معماری مهم برای ML ظاهر شده اند که ترانسفورماتورهای مبتنی بر توالی بسیار موفق مورد استفاده در NLP را با داده های ساختاری گراف تطبیق می دهد. با این حال ثابت شده است که مقیاس‌پذیری یک چالش بزرگ در استفاده از ترانسفورماتورهای گراف در مجموعه‌های داده با نمودارهای بزرگ است. در این پست، Exhormer را ارائه کرده‌ایم، یک چارچوب توجه پراکنده که از نمودارهای بسط دهنده برای بهبود مقیاس‌پذیری ترانسفورماتورهای گراف استفاده می‌کند. نشان داده شده است که Exphormer دارای ویژگی های نظری مهمی است و عملکرد تجربی قوی را نشان می دهد، به ویژه در مجموعه داده هایی که در آن یادگیری وابستگی های طولانی مدت بسیار مهم است. برای اطلاعات بیشتر، خواننده را به یک ویدیوی ارائه کوتاه از ICML 2023 راهنمایی می کنیم.

سپاسگزاریها

ما از همکاران پژوهشی خود حامد شیرزاد و دانیکا جی ساترلند از دانشگاه بریتیش کلمبیا و همچنین علی کمال سینوپ از Google Research تشکر می کنیم. تشکر ویژه از تام اسمال برای ساخت انیمیشن مورد استفاده در این پست.

سئو PBN | خبر های جدید سئو و هک و سرور