نحوه استفاده از رمزگذاری هدف در مدل‌های ریسک اعتباری یادگیری ماشین – قسمت 2

در داستان قبلی من، قسمت 1 این مبحث – https://hackernoon.com/how-to-use-target-encoding-in-machine-learning-credit-risk-models-part-1، ما مشتق از بیان WoE با استفاده از حداکثر احتمال. اکنون، ما آن را عملاً روی یک مجموعه داده تصادفی اعمال خواهیم کرد.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import math
from scipy.special import logit, expit

ما برخی از توابع ویژه را وارد کرده ایم – logit و expit. ما از آنها در اسکریپت خود استفاده خواهیم کرد زیرا logit تابع لجستیک معکوس است و expit تابع لجستیک است.

print(expit(0))
print(logit(0.5))

مرحله بعدی تولید بردار y به صورت تصادفی است. برای این کار، از توزیع برنولی استفاده می کنیم (در واقع، از توزیع دوجمله ای استفاده می کنیم که در آن n = 1 است). هر آزمایش برنولی یک یا 0 را بر اساس پارامتر احتمال تولید می کند. و n نمونه ای که تولید می کنیم با n آزمایش توزیع برنولی مطابقت دارد.

توجه داشته باشید که توزیع دو جمله ای دو پارامتر دارد – n و p. بنابراین، نمونه‌برداری تصادفی از Binomial مستلزم آن است که هم n و هم p را از قبل مشخص کنیم و «اندازه» که تعداد آزمایش‌ها است.

هر آزمایش شامل n کارآزمایی است که «تعداد موفقیت‌ها» را که متغیر تصادفی برای توزیع دوجمله‌ای است، تولید می‌کند.

y =...

Source link