Transformers: Age of Attention | HackerNoon

در سال 2017، گروهی از محققان (از گوگل و دانشگاه تورنتو) روش جدیدی را برای رسیدگی به وظایف پردازش زبان طبیعی (NLP) معرفی کردند. مقاله انقلابی آنها “توجه تنها چیزی است که شما نیاز دارید” مدل ترانسفورماتور را ارائه کرد، معماری که از آن زمان به اساس بسیاری از سیستم های هوش مصنوعی پیشرفته امروزی تبدیل شده است. عملکرد، مقیاس‌پذیری و تطبیق‌پذیری این مدل منجر به پذیرش گسترده آن شده است و ستون فقرات مدل‌های پیشرفته مانند BERT (نمایش‌های رمزگذار دوطرفه) و GPT (ترانسفورماتورهای از پیش آموزش‌دیده مولد) را تشکیل می‌دهد.

قبل از مدل ترانسفورمر، بیشتر مدل‌های هوش مصنوعی که زبان را پردازش می‌کردند، به شدت به نوعی شبکه عصبی به نام شبکه عصبی بازگشتی (RNN) یا نسخه بهبودیافته آن، شبکه حافظه کوتاه‌مدت بلند مدت (LSTM) متکی بودند. به طور خاص، مشکلاتی مانند مدل سازی زبان و ترجمه ماشینی (که به آن انتقال توالی نیز گفته می شود). این مدل ها کلمات را به ترتیب، یک به یک، از چپ به راست (یا برعکس) پردازش می کردند. در حالی که این رویکرد منطقی بود زیرا کلمات در یک جمله اغلب به کلمات قبلی بستگی دارند، برخی از اشکالات قابل توجه داشت:

  • Slow to Train: از آنجایی که RNN و LSTM یک کلمه را در یک زمان پردازش می کنند، آموزش این مدل ها بر روی مجموعه داده های بزرگ زمان بر بود.
  • دشواری با جملات طولانی: این مدل ها اغلب در تلاش برای…

Source link