تشخیص ناهنجاری بدون نظارت و نیمه نظارت با ML داده محور – وبلاگ هوش مصنوعی گوگل

تشخیص ناهنجاری (AD)، وظیفه تشخیص ناهنجاری‌ها از داده‌های معمولی، در بسیاری از برنامه‌های کاربردی دنیای واقعی، مانند شناسایی محصولات معیوب از حسگرهای بینایی در تولید، رفتارهای متقلبانه در تراکنش‌های مالی، یا تهدیدات امنیتی شبکه، نقش حیاتی ایفا می‌کند. بسته به در دسترس بودن نوع داده – منفی (عادی) در مقابل مثبت (غیر عادی) و در دسترس بودن برچسب آنها – وظیفه AD شامل چالش های مختلفی است.

(الف) تشخیص ناهنجاری کاملاً نظارت شده، (ب) تشخیص ناهنجاری فقط عادی، (ج، د، ه) تشخیص ناهنجاری نیمه نظارت شده، (و) تشخیص ناهنجاری بدون نظارت.

در حالی که بیشتر کارهای قبلی برای مواردی با داده‌های کاملاً برچسب‌گذاری‌شده (یا (الف) یا (ب) در شکل بالا نشان داده شده‌اند، مؤثر هستند، چنین تنظیماتی در عمل کمتر رایج هستند زیرا دریافت برچسب‌ها به‌ویژه خسته کننده است. در اکثر سناریوها، کاربران بودجه برچسب گذاری محدودی دارند و حتی گاهی اوقات هیچ نمونه برچسب گذاری شده ای در طول آموزش وجود ندارد. علاوه بر این، حتی زمانی که داده‌های برچسب‌دار در دسترس هستند، ممکن است سوگیری‌هایی در نحوه برچسب‌گذاری نمونه‌ها وجود داشته باشد که باعث تفاوت‌های توزیع می‌شود. چنین چالش های داده های دنیای واقعی، دقت قابل دستیابی روش های قبلی در تشخیص ناهنجاری ها را محدود می کند.

این پست دو مقاله اخیر ما در مورد AD را پوشش می‌دهد که در Transactions on Machine Learning Research (TMLR) منتشر شده است، که چالش‌های فوق را در تنظیمات بدون نظارت و نیمه‌نظارت بررسی می‌کند. با استفاده از رویکردهای داده محور، نتایج پیشرفته‌ای را در هر دو نشان می‌دهیم. در “خود نظارتی، اصلاح، تکرار: بهبود تشخیص ناهنجاری بدون نظارت”، ما یک چارچوب جدید AD بدون نظارت را پیشنهاد می کنیم که بر اصول یادگیری خود نظارتی بدون برچسب و پالایش داده های تکراری بر اساس توافق طبقه بندی کننده یک طبقه (OCC) متکی است. ) خروجی ها. در “SPADE: تشخیص ناهنجاری نیمه نظارت شده تحت عدم تطابق توزیع”، ما یک چارچوب جدید نیمه نظارتی AD را پیشنهاد می کنیم که حتی در صورت عدم تطابق توزیع با نمونه های برچسب دار محدود، عملکرد قوی را ارائه می دهد.

تشخیص ناهنجاری بدون نظارت با SRR: خود نظارت، اصلاح، تکرار

کشف مرز تصمیم برای توزیع تک کلاسی (عادی) (یعنی آموزش OCC) در تنظیمات کاملاً بدون نظارت چالش برانگیز است زیرا داده های آموزشی بدون برچسب شامل دو کلاس (عادی و غیر عادی) است. با افزایش نسبت ناهنجاری برای داده های بدون برچسب، این چالش بیشتر تشدید می شود. برای ایجاد یک OCC قوی با داده‌های بدون برچسب، به استثنای نمونه‌های مثبت احتمالی (غیر عادی) از داده‌های بدون برچسب، فرآیندی که به عنوان پالایش داده‌ها از آن یاد می‌شود، حیاتی است. داده های تصفیه شده، با نسبت ناهنجاری پایین تر، نشان داده شده اند که مدل های تشخیص ناهنجاری برتر را ارائه می دهند.

SRR ابتدا داده‌ها را از یک مجموعه داده بدون برچسب پالایش می‌کند، سپس به طور مکرر با استفاده از داده‌های تصفیه‌شده، نمایش‌های عمیق را آموزش می‌دهد در حالی که با حذف نمونه‌های احتمالی مثبت، پالایش داده‌های بدون برچسب را بهبود می‌بخشد. برای پالایش داده‌ها، مجموعه‌ای از OCCها استفاده می‌شود که هر کدام بر روی یک زیرمجموعه مجزا از داده‌های آموزشی بدون برچسب آموزش داده می‌شوند. اگر بین همه OCC ها در مجموعه اتفاق نظر وجود داشته باشد، داده هایی که منفی (طبیعی) پیش بینی می شود در داده های تصفیه شده گنجانده می شود. در نهایت، داده های آموزشی تصفیه شده برای آموزش OCC نهایی برای تولید پیش بینی های ناهنجاری استفاده می شود.

آموزش SRR با ماژول پالایش داده (گروه OCCs)، یادگیرنده بازنمایی و OCC نهایی. (نقاط سبز/قرمز به ترتیب نمونه های عادی/غیر طبیعی را نشان می دهند).

نتایج SRR

ما آزمایش‌های گسترده‌ای را در مجموعه داده‌های مختلف از حوزه‌های مختلف انجام می‌دهیم، از جمله AD معنایی (CIFAR-10، سگ در مقابل گربه)، AD بصری تولید در دنیای واقعی (MVTec)، و معیارهای AD جدولی دنیای واقعی مانند تشخیص پزشکی (تیروئید) یا ناهنجاری های امنیت شبکه (KDD 1999). ما روش هایی را با هر دو مدل کم عمق (به عنوان مثال، OC-SVM) و عمیق (به عنوان مثال، GOAD، CutPaste) در نظر می گیریم. از آنجایی که نسبت ناهنجاری داده‌های دنیای واقعی می‌تواند متفاوت باشد، ما مدل‌ها را در نسبت‌های ناهنجاری مختلف داده‌های آموزشی بدون برچسب ارزیابی می‌کنیم و نشان می‌دهیم که SRR به طور قابل‌توجهی عملکرد AD را افزایش می‌دهد. به عنوان مثال، SRR بیش از 15.0 میانگین دقت (AP) را با نسبت ناهنجاری 10٪ در مقایسه با یک مدل عمیق یک کلاس پیشرفته در CIFAR-10 بهبود می بخشد. به طور مشابه، در MVTec، SRR عملکرد ثابت خود را حفظ می‌کند و کمتر از 1.0 AUC با نسبت ناهنجاری 10 درصد کاهش می‌یابد، در حالی که بهترین OCC موجود بیش از 6.0 AUC کاهش می‌یابد. در نهایت، در مورد تیروئید (داده‌های جدولی)، SRR با 22.9 امتیاز F1 با نسبت ناهنجاری 2.5 درصد از طبقه‌بندی‌کننده تک‌کلاس پیشرفته بهتر عمل می‌کند.

در دامنه های مختلف، SRR (خط آبی) به طور قابل توجهی عملکرد AD را با نسبت های مختلف ناهنجاری در تنظیمات کاملاً بدون نظارت افزایش می دهد.

SPADE: تشخیص ناهنجاری شبه لیبلر نیمه نظارت شده با Ensembling

اکثر روش های یادگیری نیمه نظارت شده (به عنوان مثال، FixMatch، VIME) فرض می کنند که داده های برچسب دار و بدون برچسب از توزیع های یکسانی می آیند. با این حال، در عمل، عدم تطابق توزیع معمولاً رخ می دهد، با داده های برچسب دار و بدون برچسب که از توزیع های مختلف می آیند. یکی از این موارد تنظیمات مثبت و بدون برچسب (PU) یا منفی و بدون برچسب (NU) است، که در آن توزیع بین نمونه های برچسب دار (اعم از مثبت یا منفی) و بدون برچسب (هم مثبت و هم منفی) متفاوت است. یکی دیگر از دلایل تغییر توزیع، داده های بدون برچسب اضافی است که پس از برچسب زدن جمع آوری می شود. به عنوان مثال، فرآیندهای تولید ممکن است به تکامل خود ادامه دهند و باعث شود عیوب مربوطه تغییر کنند و انواع عیب در برچسب‌گذاری با انواع عیب در داده‌های بدون برچسب متفاوت باشد. علاوه بر این، برای کاربردهایی مانند کشف تقلب مالی و مبارزه با پولشویی، ناهنجاری‌های جدیدی می‌توانند پس از فرآیند برچسب‌گذاری داده‌ها ظاهر شوند، زیرا رفتار مجرمانه ممکن است سازگار شود. در نهایت، برچسب‌ها وقتی نمونه‌های آسان را برچسب‌گذاری می‌کنند، اطمینان بیشتری دارند. بنابراین، نمونه‌های آسان/سخت به احتمال زیاد در داده‌های برچسب‌دار/بدون برچسب گنجانده می‌شوند. به عنوان مثال، با برخی برچسب‌گذاری‌های مبتنی بر جمع‌سپاری، تنها نمونه‌هایی که روی برچسب‌ها اتفاق نظر دارند (به عنوان معیار اطمینان) در مجموعه برچسب‌گذاری شده گنجانده می‌شوند.

سه سناریوی رایج در دنیای واقعی با عدم تطابق توزیع (جعبه آبی: نمونه‌های عادی، جعبه قرمز: نمونه‌های ناهنجاری شناخته شده/آسان، جعبه زرد: نمونه‌های ناهنجاری جدید/سخت).

روش‌های یادگیری نیمه‌نظارت‌شده استاندارد فرض می‌کنند که داده‌های برچسب‌دار و بدون برچسب از توزیع یکسانی می‌آیند، بنابراین برای AD نیمه‌نظارت‌شده تحت عدم تطابق توزیع، زیربهینه هستند. SPADE از مجموعه ای از OCC ها برای تخمین شبه برچسب های داده های بدون برچسب استفاده می کند – این کار را مستقل از داده های برچسب گذاری شده مثبت انجام می دهد، بنابراین وابستگی به برچسب ها را کاهش می دهد. این امر به ویژه زمانی مفید است که عدم تطابق توزیع وجود داشته باشد. علاوه بر این، SPADE از تطبیق جزئی استفاده می‌کند تا به‌طور خودکار پارامترهای فوق‌العاده حیاتی را برای برچسب‌گذاری شبه بدون تکیه بر داده‌های اعتبار سنجی برچسب‌گذاری‌شده انتخاب کند، یک قابلیت حیاتی با توجه به داده‌های برچسب‌گذاری شده محدود.

بلوک دیاگرام SPADE با زوم در بلوک دیاگرام دقیق شبه نشانگرهای پیشنهادی.

نتایج SPADE

ما آزمایش‌های گسترده‌ای انجام می‌دهیم تا مزایای SPADE را در تنظیمات مختلف دنیای واقعی یادگیری نیمه نظارت شده با عدم تطابق توزیع نشان دهیم. ما چندین مجموعه داده AD را برای داده های تصویری (از جمله MVTec) و جدولی (از جمله Covertype، Thyroid) در نظر می گیریم.

SPADE پیشرفته ترین عملکرد تشخیص ناهنجاری نیمه نظارت شده را در طیف گسترده ای از سناریوها نشان می دهد: (1) انواع جدید ناهنجاری ها، (2) نمونه های آسان برای برچسب زدن، و (iii) نمونه های مثبت-بدون برچسب. همانطور که در زیر نشان داده شده است، با انواع جدید ناهنجاری ها، SPADE به طور متوسط ​​5% AUC از جایگزین های پیشرفته برتری دارد.

عملکرد AD با سه سناریو مختلف در مجموعه داده های مختلف (Covertype، MVTec، Thyroid) از نظر AUC. برخی از خطوط پایه فقط برای برخی سناریوها قابل اجرا هستند. نتایج بیشتر با سایر خطوط پایه و مجموعه داده را می توان در مقاله یافت.

ما همچنین SPADE را در مجموعه داده‌های کشف تقلب مالی در دنیای واقعی ارزیابی می‌کنیم: کلاهبرداری کارت اعتباری Kaggle و شناسایی تقلب Xente. برای این موارد، ناهنجاری‌ها تکامل می‌یابند (یعنی توزیع آنها در طول زمان تغییر می‌کند) و برای شناسایی ناهنجاری‌های در حال تکامل، باید به برچسب زدن برای ناهنجاری‌های جدید ادامه دهیم و مدل AD را دوباره آموزش دهیم. با این حال، برچسب زدن پرهزینه و زمان بر خواهد بود. حتی بدون برچسب‌گذاری اضافی، SPADE می‌تواند عملکرد AD را با استفاده از داده‌های برچسب‌گذاری‌شده و داده‌های بدون برچسب تازه جمع‌آوری‌شده بهبود بخشد.

عملکرد AD با توزیع های متغیر با زمان با استفاده از دو مجموعه داده کشف تقلب در دنیای واقعی با نسبت برچسب گذاری 10٪. خطوط پایه بیشتری را می توان در مقاله یافت.

همانطور که در بالا نشان داده شد، SPADE به طور مداوم از جایگزین ها در هر دو مجموعه داده بهتر عمل می کند، و از داده های بدون برچسب استفاده می کند و برای توزیع های در حال تکامل استحکام نشان می دهد.

نتیجه گیری

AD دارای طیف گسترده ای از موارد استفاده با اهمیت قابل توجه در برنامه های کاربردی دنیای واقعی است، از شناسایی تهدیدات امنیتی در سیستم های مالی تا شناسایی رفتارهای معیوب ماشین های تولیدی.

یکی از جنبه های چالش برانگیز و پرهزینه ساخت یک سیستم AD این است که ناهنجاری ها نادر هستند و به راحتی توسط مردم قابل تشخیص نیستند. برای این منظور، ما SRR را پیشنهاد کرده‌ایم، یک چارچوب AD متعارف برای فعال کردن AD با کارایی بالا بدون نیاز به برچسب‌های دستی برای آموزش. SRR را می توان به طور انعطاف پذیر با هر OCC ادغام کرد و روی داده های خام یا نمایش های قابل آموزش اعمال کرد.

AD نیمه نظارت شده یکی دیگر از چالش های بسیار مهم است – در بسیاری از سناریوها، توزیع نمونه های برچسب دار و بدون برچسب مطابقت ندارند. SPADE یک مکانیسم شبه برچسب گذاری قوی با استفاده از مجموعه ای از OCC ها و روشی عاقلانه برای ترکیب یادگیری تحت نظارت و خود نظارتی معرفی می کند. علاوه بر این، SPADE یک رویکرد کارآمد برای انتخاب فراپارامترهای حیاتی بدون مجموعه اعتبار سنجی، یک جزء حیاتی برای AD کارآمد از نظر داده، معرفی می کند.

به طور کلی، ما نشان می‌دهیم که SRR و SPADE در سناریوهای مختلف در انواع مختلف مجموعه داده‌ها به طور مداوم از جایگزین‌ها بهتر عمل می‌کنند.

سپاسگزاریها

ما از کمک های کیهیوک سون، چون-لیانگ لی، چن-یو لی، کایل زیگلر، نیت یودر، و توماس فایستر سپاسگزاریم.

سئو PBN | خبر های جدید سئو و هک و سرور