طبقه بندی باینری یکی از رایج ترین وظایف یادگیری ماشینی است که در کاربردهای عملی متعددی با آن مواجه می شود.
با این حال، در عمل، هدف چنین وظایفی اغلب فراتر از پیشبینی ساده یک کلاس است. آنچه بسیار مهمتر می شود، توانایی مدل برای برآورد است احتمال تعلق یک شی به یک کلاس یا کلاس دیگر. به عبارت دیگر، ما نه تنها علاقه مندیم که کدام کلاس را انتخاب کنیم، بلکه علاقه مندیم که مدل چقدر به تصمیم خود اطمینان دارد.
چنین وظایفی بسیار مکرر هستند. به عنوان مثال، در امتیازدهی اعتباری، وظیفه تخمین احتمال نکول مشتری وجود دارد – پیش بینی اینکه آیا مشتری پرداخت وام خود را متوقف می کند یا خیر. بانک ها از چنین مدل هایی برای تصمیم گیری بر اساس احتمالات نکول محاسبه شده استفاده می کنند: آیا صدور وام و اگر چنین است، تحت چه شرایطی. در این زمینه، برآورد دقیق احتمال به عنوان یک عامل محوری در شکلدهی به نتایج مالی ظاهر میشود.
اما چگونه می توانیم صحت پیش بینی های مدل را تعیین کنیم؟ معیارهای سنتی مانند دقت، فراخوان یا F-Measure برای چنین کارهایی مناسب نیستند. ابزارهای تخصصی برای ارزیابی کیفیت پیشبینیهای احتمال مورد نیاز است.
در این مقاله، تجربیات عملی را در ارزیابی پیشبینیهای احتمالی به اشتراک میگذارم، معیارهای کلیدی مورد استفاده در عمل را مورد بحث قرار میدهم و توضیح میدهم که چگونه …