Apache Flink یک موتور قدرتمند برای پردازش داده ها در زمان واقعی ارائه می دهد. اگه میتونیم جواب بدیم چه، کجا، چه زمانی و چگونه از پردازش دادهها، میتوانیم با استفاده از Apache Flink و Apache Beam یک خط لوله پردازش جریان بسیار قوی ایجاد کنیم.
چی
مانند آنچه که خروجی محاسبات است، آیا ما مجموع، حداقل، حداکثر، میانگین و غیره را انجام می دهیم یا یک تبدیل پیچیده را در خط لوله انجام می دهیم. محاسبات پیچیده می تواند ساختن هیستوگرام، آموزش مدل های یادگیری ماشینی، ساختن یک موتور توصیه باشد.
کجا
محاسبات در کجا اتفاق میافتد، مانند استفاده از پنجرههای مختلف در حافظه مانند پنجره ثابت، پنجرههای کشویی یا پنجرههای جلسه. برخی از موارد استفاده نمی توانند مانند پردازش دسته ای کلاسیک مفهومی از پنجره سازی نداشته باشند.
چه زمانی
زمان استفاده از نتایج چه زمانی است. این تصمیم را می توان با استفاده از محرک ها و واترمارک*. تریگرها* شرایطی هستند که در جریان برای استفاده از داده ها به عنوان خروجی نهایی تعریف می شوند. شلیک ماشه وابسته به تولید شده است واترمارک در سیستم*.*
چگونه
آخرین و مهمترین سوالی که باید پاسخ داد این است که از چه نوع روش انباشتی استفاده می شود
دور انداختن – جایی که همه نتایج مستقل هستند
انباشته شدن – جایی که نتایج بعدی بر اساس نتایج قبلی است
عقب نشینی – Where is از مقدار انباشته به اضافه پس گرفتن مقدار منتشر شده قبلی استفاده می کند
زمان پردازش در مقابل زمان رویداد؟
یک گروه را در نظر بگیرید …