سوال مصاحبه علوم داده: ایجاد منحنی های ROC و فراخوان دقیق از ابتدا

این یکی از پرسش‌های رایج مصاحبه علوم داده است که نیاز به ایجاد ROC و منحنی‌های مشابه از ابتدا دارد، یعنی داده‌ای در دسترس نباشد. برای اهداف این داستان، من فرض می‌کنم که خوانندگان از معنا و محاسبات پشت این معیارها و اینکه آنها چه چیزی را نشان می‌دهند و چگونه تفسیر می‌شوند، آگاه هستند. بنابراین، من بر جنبه اجرایی همان تمرکز خواهم کرد. ما با وارد کردن کتابخانه های لازم شروع می کنیم (ریاضی را نیز وارد می کنیم زیرا آن ماژول در محاسبات استفاده می شود)

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import math

اولین گام، تولید داده‌های «واقعی» 1s (بد) و 0s (کالاها) است، زیرا از این روش برای محاسبه و مقایسه دقت مدل از طریق معیارهای فوق‌الذکر استفاده می‌شود. برای این مقاله، “بردار واقعی” را از توزیع یکنواخت ایجاد خواهیم کرد. برای مقاله بعدی و مرتبط، از توزیع دوجمله ای استفاده خواهیم کرد.

actual = np.random.randint(0, 2, 10000)

کد بالا 10000 عدد صحیح تصادفی متعلق به را تولید می کند [0,1] که بردار کلاس باینری واقعی ما است. اکنون، البته ما به بردار دیگری از احتمالات برای این کلاس‌های واقعی نیاز داریم. به طور معمول، این احتمالات خروجی یک مدل یادگیری ماشینی هستند. با این حال، در اینجا ما آنها را به صورت تصادفی تولید می کنیم …

Source link