چگونه یک مدل کوچک هوش مصنوعی را آموزش دهیم همه چیز عظیمی را می داند

فهرست مطالب

  1. مقدمه
  2. دانش تاریک
  3. روش تقطیر
  4. آزمایش در MNIST
  5. آزمایش اضافی در Mnist

1. مقدمه

در این مقاله ، من روند تقطیر دانش را در هوش مصنوعی بررسی خواهم کرد – چگونه به طور کلی ، اهمیت آن و دلایل استفاده از آن کار می کند.

چگونه می توانیم دانش را از یک مدل بزرگتر یا مجموعه ای از مدل ها (که در مجموعه داده های بسیار بزرگ آموزش داده شده اند تا ساختار از داده ها را تهیه کنند) به یک مدل کوچک و بدون عملکرد زیاد ، فشرده و انتقال دهیم؟

اما چرا ما می خواهیم این کار را انجام دهیم؟ چرا وقتی یک مدل بزرگتر یا مدل گروه در حال حاضر نتایج خوبی را در مورد داده های آزمون ارائه می دهد ، به یک مدل کوچکتر نیاز داریم؟

در زمان آموزش ، ما به طور معمول مدل های بزرگ/گروهی را آموزش می دهیم زیرا هدف اصلی استخراج ساختار از مجموعه داده های بسیار بزرگ است. ما همچنین می توانیم موارد زیادی مانند ترک تحصیل ، افزایش داده ها در زمان قطار را برای تغذیه این مدل های بزرگ انواع داده ها استفاده کنیم.

اما در زمان پیش بینی هدف ما کاملاً متفاوت است. ما می خواهیم در اسرع وقت نتیجه بگیریم. بنابراین استفاده از یک مدل بزرگتر/مجموعه ای از مدل ها بسیار گران است و استقرار را برای تعداد زیادی از کاربران مانع می کند. بنابراین ، اکنون سؤال این است که چگونه می توانیم دانش را از این مدل بزرگتر به یک مدل کوچکتر که می توان به راحتی مستقر کرد ، فشرده کنیم.

جفری هینتون ، اوریول وینلز و جف دین …

Source link