نمودارها که در آنها اشیاء و روابط آنها به صورت گره (یا رئوس) و یال (یا پیوند) بین جفت گره ها نشان داده می شود، در محاسبات و یادگیری ماشین (ML) همه جا حاضر هستند. به عنوان مثال، شبکههای اجتماعی، شبکههای جادهای و ساختار مولکولی و تعاملات همگی حوزههایی هستند که مجموعه دادههای زیربنایی دارای ساختار نمودار طبیعی هستند. ML می تواند برای یادگیری ویژگی های گره ها، یال ها یا کل نمودارها استفاده شود.
یک رویکرد رایج برای یادگیری بر روی نمودارها، شبکههای عصبی گراف (GNNs) هستند که بر روی دادههای گراف با اعمال یک تبدیل بهینهسازی روی گره، لبه و ویژگیهای سراسری کار میکنند. معمولیترین کلاس GNNها از طریق یک چارچوب ارسال پیام عمل میکنند، که به موجب آن هر لایه نمایش یک گره را با گرههای همسایههای فوری خود جمع میکند.
اخیراً، مدلهای ترانسفورماتور گراف به عنوان یک جایگزین محبوب برای GNNهای ارسال پیام ظاهر شدهاند. این مدلها بر پایه موفقیت معماریهای ترانسفورماتور در پردازش زبان طبیعی (NLP) ساخته شده و آنها را با دادههای ساختار یافته گراف تطبیق میدهد. مکانیسم توجه در ترانسفورماتورهای گراف را می توان با یک نمودار تعاملی مدل کرد، که در آن لبه ها نشان دهنده جفت گره هایی هستند که به یکدیگر توجه دارند. برخلاف معماری های ارسال پیام، ترانسفورماتورهای گراف دارای یک گراف تعاملی هستند که جدا از گراف ورودی است. نمودار تعامل معمولی یک نمودار کامل است که نشان دهنده مکانیسم توجه کامل است که تعامل مستقیم بین تمام جفت گره ها را مدل می کند. با این حال، این گلوگاه محاسباتی و حافظه درجه دوم ایجاد می کند که کاربرد ترانسفورماتورهای گراف را به مجموعه داده ها در نمودارهای کوچک با حداکثر چند هزار گره محدود می کند. مقیاس پذیر ساختن ترانسفورماتورهای گراف یکی از مهم ترین جهت های تحقیقاتی در این زمینه در نظر گرفته شده است (اولین مسئله باز را اینجا ببینید).
یک درمان طبیعی استفاده از الف است پراکنده نمودار تعامل با لبه های کمتر بسیاری از ترانسفورماتورهای پراکنده و کارآمد برای حذف گلوگاه درجه دوم برای دنبالهها پیشنهاد شدهاند، با این حال، آنها معمولاً به صورت اصولی به نمودارها گسترش نمییابند.
در “Exphormer: ترانسفورماتورهای پراکنده برای نمودارها”، ارائه شده در ICML 2023، با معرفی یک چارچوب توجه پراکنده برای ترانسفورماتورها که به طور خاص برای داده های گراف طراحی شده است، به چالش مقیاس پذیری می پردازیم. چارچوب Exphormer از نمودارهای بسط دهنده استفاده می کند، ابزاری قدرتمند از نظریه گراف طیفی، و قادر به دستیابی به نتایج تجربی قوی در طیف گسترده ای از مجموعه داده ها است. پیاده سازی Exphormer ما اکنون در GitHub در دسترس است.
نمودارهای بسط دهنده
یک ایده کلیدی در قلب Exphormer استفاده از نمودارهای بسط دهنده است که نمودارهای پراکنده و در عین حال به خوبی به هم پیوسته هستند که دارای برخی ویژگی های مفید هستند – 1) نمایش ماتریسی نمودارها دارای ویژگی های خطی-جبری مشابه یک نمودار کامل است، و 2 ) آنها اختلاط سریع پیاده روی های تصادفی را نشان می دهند، به عنوان مثال، تعداد کمی از مراحل در یک پیاده روی تصادفی از هر گره شروع برای اطمینان از همگرایی به یک توزیع “پایدار” روی گره های نمودار کافی است. توسعه دهندگان کاربردهایی را در زمینه های مختلفی مانند الگوریتم ها، شبه تصادفی، نظریه پیچیدگی و کدهای تصحیح خطا پیدا کرده اند.
یک کلاس رایج از نمودارهای بسط دهنده هستند دمنبسط کننده های منظم که در آنها وجود دارد د لبه های هر گره (یعنی هر گره دارای درجه است د). کیفیت یک نمودار بسط دهنده با آن اندازه گیری می شود شکاف طیفییک ویژگی جبری ماتریس مجاورت آن (نمایش ماتریسی از نمودار که در آن سطرها و ستون ها توسط گره ها نمایه می شوند و ورودی ها نشان می دهد که آیا جفت گره ها با یک یال به هم متصل شده اند). آنهایی که شکاف طیفی را به حداکثر میرسانند، به عنوان نمودارهای رامانوجان شناخته میشوند – آنها به یک شکاف میرسند د – 2*√(د-1) که اساساً بهترین ممکن در میان است د– نمودارهای منظم تعدادی از ساختارهای قطعی و تصادفی گراف های رامانوجان در طول سال ها برای مقادیر مختلف پیشنهاد شده است. د. ما از یک ساختار بسط دهنده تصادفی فریدمن استفاده می کنیم که نمودارهای نزدیک به رامانوجان را تولید می کند.
نمودارهای بسط دهنده در قلب Exphormer قرار دارند. یک بسط دهنده خوب کم است و در عین حال اختلاط سریع پیاده روی های تصادفی را نشان می دهد و اتصال جهانی آن را برای یک نمودار تعامل در مدل ترانسفورماتور گراف مناسب می کند. |
Exphormer نمودار تعامل متراکم و کاملاً متصل یک ترانسفورماتور استاندارد را با لبه های پراکنده جایگزین می کند. د– نمودار منبسط کننده منظم به طور شهودی، تقریب طیفی و خواص اختلاط یک گراف بسط دهنده به گره های دور اجازه می دهد تا پس از روی هم گذاشتن چندین لایه توجه در معماری ترانسفورماتور گراف، با یکدیگر ارتباط برقرار کنند، حتی اگر گره ها ممکن است مستقیماً به یکدیگر توجه نکنند. علاوه بر این، با اطمینان از آن د ثابت است (مستقل از اندازه تعداد گره ها)، تعداد خطی یال ها را در نمودار تعامل حاصل به دست می آوریم.
Exphormer: ساخت یک نمودار تعامل پراکنده
Exphormer لبه های توسعه دهنده را با گراف ورودی و گره های مجازی ترکیب می کند. به طور خاص، مکانیسم توجه پراکنده Exphormer یک نمودار تعاملی متشکل از سه نوع یال ایجاد می کند:
- لبه های نمودار ورودی (توجه محلی)
- یال های یک نمودار بسط دهنده با درجه ثابت (توجه گسترش دهنده)
- لبه ها از هر گره به مجموعه کوچکی از گره های مجازی (توجه جهانی)
Exphormer با ترکیب سه نوع یال، یک نمودار تعاملی ایجاد می کند. نمودار به دست آمده دارای ویژگی های اتصال خوبی است و بایاس استقرایی نمودار مجموعه داده ورودی را در حالی که هنوز پراکنده است حفظ می کند. |
هر جزء هدف خاصی را دنبال می کند: لبه های نمودار ورودی، سوگیری استقرایی ساختار گراف ورودی را حفظ می کنند (که معمولاً در یک ماژول توجه کاملاً متصل گم می شود). در همین حال، لبه های گسترش دهنده امکان اتصال جهانی خوب و ویژگی های اختلاط تصادفی پیاده روی را فراهم می کند (که از نظر طیفی نمودار کامل را با لبه های بسیار کمتر تقریب می زند). در نهایت، گره های مجازی به عنوان «حافظه های حافظه» جهانی عمل می کنند که می توانند مستقیماً با هر گره ارتباط برقرار کنند. در حالی که این منجر به لبههای اضافی از هر گره مجازی برابر با تعداد گرهها در نمودار ورودی میشود، نمودار حاصل هنوز پراکنده است. درجه گراف بسط دهنده و تعداد گره های مجازی فراپارامترهایی هستند که برای بهبود معیارهای کیفیت تنظیم می شوند.
علاوه بر این، از آنجایی که ما از یک نمودار بسط دهنده با درجه ثابت و تعداد ثابت کوچکی از گره های مجازی برای توجه کلی استفاده می کنیم، مکانیسم توجه پراکنده حاصل در اندازه نمودار ورودی اصلی خطی است، یعنی تعدادی از تعاملات مستقیم را در ترتیب تعداد کل گره ها و لبه ها.
ما علاوه بر این نشان میدهیم که Exhormer به اندازه ترانسفورماتور متراکم رسا است و از خواص تقریب جهانی پیروی میکند. به ویژه، هنگامی که نمودار توجه پراکنده Exphormer با حلقه های خود (لبه هایی که یک گره را به خود متصل می کند) تقویت می شود، می تواند به طور کلی توابع پیوسته را تقریب کند. [1, 2].
ارتباط با ترانسفورماتورهای پراکنده برای دنباله ها
مقایسه اکسفرمر با روشهای توجه پراکنده برای دنبالهها جالب است. شاید معماری از لحاظ مفهومی شبیه به رویکرد ما BigBird باشد که با ترکیب اجزای مختلف یک نمودار تعاملی ایجاد می کند. BigBird همچنین از گرههای مجازی استفاده میکند، اما برخلاف Exhormer، از توجه به پنجره و توجه تصادفی از مدل نمودار تصادفی Erdős-Rényi برای اجزای باقیمانده استفاده میکند.
توجه پنجره در BigBird به توکنهایی که یک نشانه را احاطه کردهاند در یک دنباله نگاه میکند – توجه محله محلی در Exphormer را میتوان به عنوان تعمیم توجه پنجره به نمودارها مشاهده کرد.
نمودار Erdős-Rényi در n گره ها، G(n، p)، که هر جفت گره را به طور مستقل با احتمال به هم متصل می کند پ، همچنین به عنوان یک گراف بسط دهنده برای مقدار مناسب عمل می کند پ. با این حال، تعداد فوق خطی لبه ها (Ω(n ورود به سیستم n)) برای اطمینان از اتصال گراف Erdős-Rényi لازم است، چه رسد به یک بسط دهنده خوب. از طرفی بسط دهنده های مورد استفاده در اکسفرمر فقط دارای الف هستند خطی تعداد لبه ها
نتایج تجربی
کارهای قبلی استفاده از مدلهای مبتنی بر ترانسفورماتور گراف کامل را در مجموعههای داده با نمودارهایی با اندازه تا 5000 گره نشان دادهاند. برای ارزیابی عملکرد Exphormer، ما از چارچوب معروف GraphGPS استفاده می کنیم [3]، که هم ترانسفورماتورهای ارسال پیام و هم گراف را با هم ترکیب می کند و به عملکرد پیشرفته ای در تعدادی از مجموعه داده ها دست می یابد. ما نشان میدهیم که جایگزین کردن توجه متراکم با Exphormer برای مؤلفه توجه نمودار در چارچوب GraphGPS به فرد امکان میدهد به مدلهایی با عملکرد قابل مقایسه یا بهتر، اغلب با پارامترهای آموزشپذیر کمتر، دست یابد.
علاوه بر این، Exphormer به طور مشخص به معماریهای ترانسفورماتور گراف اجازه میدهد تا فراتر از محدودیتهای اندازه نمودار معمولی که در بالا ذکر شد، مقیاس شوند. Exphormer می تواند تا مجموعه داده های بیش از 10000 گراف گره، مانند مجموعه داده Coauthor، و حتی فراتر از آن را به نمودارهای بزرگتر مانند مجموعه داده معروف ogbn-arxiv، یک شبکه استنادی که از 170K گره و 1.1 میلیون یال تشکیل شده است، مقیاس کند.
نتایج مقایسه Exphormer با GraphGPS استاندارد در پنج مجموعه داده معیار نمودار برد بلند. ما توجه میکنیم که Exhormer در زمان انتشار مقاله به نتایج پیشرفتهای در چهار مورد از پنج مجموعه داده (PascalVOC-SP، COCO-SP، Peptides-Struct، PCQM-Contact) دست یافت. |
در نهایت، مشاهده می کنیم که Exphormer، که یک نمودار پوششی با قطر کوچک از طریق بسط دهنده ها ایجاد می کند، توانایی یادگیری موثر وابستگی های دوربرد را نشان می دهد. Long Range Graph Benchmark مجموعهای از پنج مجموعه داده یادگیری نمودار است که برای اندازهگیری توانایی مدلها برای ثبت تعاملات دوربرد طراحی شده است. نتایج نشان میدهد که مدلهای مبتنی بر Exphormer از مدلهای استاندارد GraphGPS (که قبلاً در زمان انتشار در چهار مجموعه از پنج مجموعه داده پیشرفته بودند) بهتر عمل میکنند.
نتیجه
ترانسفورماتورهای گراف به عنوان یک معماری مهم برای ML ظاهر شده اند که ترانسفورماتورهای مبتنی بر توالی بسیار موفق مورد استفاده در NLP را با داده های ساختاری گراف تطبیق می دهد. با این حال ثابت شده است که مقیاسپذیری یک چالش بزرگ در استفاده از ترانسفورماتورهای گراف در مجموعههای داده با نمودارهای بزرگ است. در این پست، Exhormer را ارائه کردهایم، یک چارچوب توجه پراکنده که از نمودارهای بسط دهنده برای بهبود مقیاسپذیری ترانسفورماتورهای گراف استفاده میکند. نشان داده شده است که Exphormer دارای ویژگی های نظری مهمی است و عملکرد تجربی قوی را نشان می دهد، به ویژه در مجموعه داده هایی که در آن یادگیری وابستگی های طولانی مدت بسیار مهم است. برای اطلاعات بیشتر، خواننده را به یک ویدیوی ارائه کوتاه از ICML 2023 راهنمایی می کنیم.
سپاسگزاریها
ما از همکاران پژوهشی خود حامد شیرزاد و دانیکا جی ساترلند از دانشگاه بریتیش کلمبیا و همچنین علی کمال سینوپ از Google Research تشکر می کنیم. تشکر ویژه از تام اسمال برای ساخت انیمیشن مورد استفاده در این پست.