نحوه استفاده از رمزگذاری هدف در مدل‌های ریسک اعتباری یادگیری ماشین – بخش 1

رمزگذاری هدف، همچنین به عنوان رمزگذاری میانگین یا رمزگذاری احتمال شناخته می شود، تکنیکی است که برای تبدیل متغیرهای طبقه ای به مقادیر عددی بر اساس متغیر هدف در وظایف یادگیری نظارت شده استفاده می شود. این روش به ویژه در برخورد با متغیرهای مقوله‌ای با کاردینالیتی بالا (یعنی متغیرهایی با تعداد زیادی دسته‌های منحصربه‌فرد) مفید است. برای مدل‌های ریسک اعتباری، این رویکرد برای متغیرهای پیوسته نیز اعمال می‌شود و عموماً به عنوان «وزن شواهد» (در زمینه مشکلات طبقه‌بندی دودویی) شناخته می‌شود.

معادله WOE. معادله WOE

ما فرمول فوق را به صورت ریاضی برای WoE استخراج می کنیم تا ببینیم در قسمت اول این داستان از کجا آمده است. در قسمت دوم به بررسی قسمت کدگذاری آن می پردازیم.

ایده این است که یک مدل “ثابت تکه ای” را به متغیر باینری نتیجه برازش دهیم. این کار با پارتیشن بندی فضای متغیر به مناطق غیر همپوشانی انجام می شود به طوری که یک مقدار پیش بینی شده ثابت در هر منطقه وجود دارد.

فضای متغیر پارتیشن بندی شده فضای متغیر پارتیشن بندی شده

همانطور که در شکل بالا نشان داده شده است، فضای ورودی به هفت ناحیه غیر همپوشانی تقسیم شده است و خروجی یک ثابت تکه تکه برای هر منطقه است. این به صورت ریاضی به صورت زیر بیان می شود:

معادله پارتیشن بندیمعادله پارتیشن بندی

یک متغیر x داریم که مقدار x_i آن می تواند به یک منطقه R_j تعلق داشته باشد و پارامتر \beta_j را با منطقه R_j مرتبط می کنیم. اگر k ناحیه داشته باشیم، \بتا…

Source link