چرا توابع هزینه درجه دوم در آموزش شبکه عصبی بی اثر هستند؟

یکی از رایج ترین سوالاتی که در مصاحبه های دانش یادگیری عمیق پرسیده می شود این است –چرا نمی توانیم از تابع هزینه درجه دوم برای آموزش شبکه عصبی استفاده کنیم؟“. در این مقاله به پاسخ این سوال می پردازیم. ریاضیات زیادی درگیر خواهد شد اما هیچ چیز دیوانه کننده ای نیست! من همه چیز را ساده و دقیق نگه می دارم.

بیایید با در نظر گرفتن معماری کلی یک شبکه عصبی شروع کنیم

معماری عمومی یک شبکه عصبی

معماری شبکه عصبی برای طبقه بندی باینریمعماری شبکه عصبی برای طبقه بندی باینری

ما یک سری ورودی داریم که یک “لایه ورودی”، یک سری نورون در “لایه پنهان” و یک نورون که یک “لایه خروجی” را برای یک مسئله طبقه بندی باینری تشکیل می دهد. برای این سوال، فرض می کنیم که با یک طبقه بندی کننده باینری سروکار داریم، بنابراین فقط یک مقدار خروجی از شبکه داریم.

اکنون به شکل زیر نگاه کنید که در آن لایه ورودی را با رنگ سبز، نورون خروجی را با رنگ قرمز و یک نورون از لایه پنهان را با رنگ نارنجی مشخص کرده ایم. از همه سبز تا نارنجی، می بینیم که همه ورودی ها به نورون نارنجی متصل هستند. به عبارت دیگر، «فعال‌سازی» نورون نارنجی با استفاده از «تجمع» تمام نورون‌های سبز رنگ در لایه ورودی اتفاق می‌افتد. این فرآیند روی تمام نورون ها در تمام لایه ها تکرار می شود تا زمانی که به نورون خروجی قرمز نهایی برسیم.

چه می شود اگر نورون نارنجی را با نورون جایگزین کنیم…

Source link