پیش بینی پیوند با هدف پیش بینی احتمال ارتباط آینده یا از دست رفته ارتباط بین گره ها در یک شبکه انجام می شود. این ماده به طور گسترده در برنامه های مختلف مانند شبکه های اجتماعی ، سیستم های توصیه و شبکه های بیولوژیکی مورد استفاده قرار می گیرد. ما روی پیش بینی پیوند در شبکه های اجتماعی تمرکز خواهیم کرد و برای همین ما از همان مجموعه داده هایی که برای پیش بینی پیوند محلی با DGL در پست قبلی استفاده شده است استفاده خواهیم کرد – داده های شبکه اجتماعی Twitch. این مجموعه داده شامل یک نمودار با گره های خود است که کاربران و لبه های Twitch را نشان می دهد که نشان دهنده دوستی متقابل بین کاربران است. ما از آن برای پیش بینی پیوندهای جدید (“پیروی از”) بین کاربران ، بر اساس پیوندهای موجود و ویژگی های کاربر استفاده خواهیم کرد.
همانطور که در نمودار نشان داده شده است ، پیش بینی پیوند شامل چندین مرحله از جمله واردات ، صادرات و پیش پردازش داده ها ، آموزش یک مدل و بهینه سازی هایپرپارامترهای آن و در نهایت تنظیم و پرس و جو یک نقطه پایانی استنباط است که پیش بینی های واقعی را ایجاد می کند.
در این پست ما روی اولین مرحله از فرآیند تمرکز خواهیم کرد: تهیه داده ها و بارگیری آن در یک خوشه نپتون.
تبدیل داده ها به فرمت لودر نپتون
پرونده های اولیه در مجموعه داده به این شکل است:
رئوس (اولیه):
id,days,mature,views,partner,new_id
73045350,1459,False,9528,False,2299
61573865,1629,True,3615,False,153
...
لبه…