مقایسه شبکه کولموگروف-آرنولد (KAN) و پرسپترون های چند لایه (MLP)

ما پرسپترون‌های چندلایه کلاسیک (MLP) را مسلم فرض کرده‌ایم و معماری‌های زیادی پیرامون آن ساخته‌ایم. MLP ها بخشی از تک تک مدل های LLM یا بنیادی هستند که امروزه می بینیم، مانند chatGPT، LLAMA، DALLE و CLIP. یا حتی مدل های تشخیص ساده مانند YOLO-v*.

اگر اکنون به شما بگویم که ما یک رقیب برای MLP ها داریم چه؟ مقاله جدیدی در شهر به نام “شبکه کلموگروف-آرنولد” یا به طور خلاصه KAN وجود دارد که MLP ها را به چالش می کشد. اگر راه حلی که آنها پیشنهاد می کنند واقعا مقیاس باشد، آنگاه می توانیم نسل بعدی شبکه های عصبی را داشته باشیم که ما را یک قدم دیگر به هوش عمومی مصنوعی (AGI) نزدیکتر می کند.

در حالی که MLP ها شامل توابع فعال سازی مانند ReLU، sigmoid، tanh، GeLU و غیره هستند، KAN پیشنهاد می کند که ما این توابع فعال سازی را یاد بگیریم. بنابراین، KAN چگونه این کار را انجام می دهد؟ ریاضیات پشت آن چیست؟ چگونه اجرا می شود؟ و چگونه حتی کان ها را آموزش می دهیم؟

من تمام تلاش خود را کرده ام تا مقاله KAN را در اینجا خلاصه کنم. شما می توانید این اصل را بخوانید یا مقاله را بخوانید که 48 صفحه است!

توضیح تصویری

اگر شما هم مانند من هستید و می خواهید چیزهایی را برای درک بهتر تجسم کنید، در اینجا فرم ویدیویی این مقاله آمده است:

MLPs – مشکل

بیایید با MLP ها شروع کنیم که کاملاً با آنها آشنا هستیم. MLP ها از گره های …

Source link