در سال 2017، گروهی از محققان (از گوگل و دانشگاه تورنتو) روش جدیدی را برای رسیدگی به وظایف پردازش زبان طبیعی (NLP) معرفی کردند. مقاله انقلابی آنها “توجه تنها چیزی است که شما نیاز دارید” مدل ترانسفورماتور را ارائه کرد، معماری که از آن زمان به اساس بسیاری از سیستم های هوش مصنوعی پیشرفته امروزی تبدیل شده است. عملکرد، مقیاسپذیری و تطبیقپذیری این مدل منجر به پذیرش گسترده آن شده است و ستون فقرات مدلهای پیشرفته مانند BERT (نمایشهای رمزگذار دوطرفه) و GPT (ترانسفورماتورهای از پیش آموزشدیده مولد) را تشکیل میدهد.
قبل از مدل ترانسفورمر، بیشتر مدلهای هوش مصنوعی که زبان را پردازش میکردند، به شدت به نوعی شبکه عصبی به نام شبکه عصبی بازگشتی (RNN) یا نسخه بهبودیافته آن، شبکه حافظه کوتاهمدت بلند مدت (LSTM) متکی بودند. به طور خاص، مشکلاتی مانند مدل سازی زبان و ترجمه ماشینی (که به آن انتقال توالی نیز گفته می شود). این مدل ها کلمات را به ترتیب، یک به یک، از چپ به راست (یا برعکس) پردازش می کردند. در حالی که این رویکرد منطقی بود زیرا کلمات در یک جمله اغلب به کلمات قبلی بستگی دارند، برخی از اشکالات قابل توجه داشت:
- Slow to Train: از آنجایی که RNN و LSTM یک کلمه را در یک زمان پردازش می کنند، آموزش این مدل ها بر روی مجموعه داده های بزرگ زمان بر بود.
- دشواری با جملات طولانی: این مدل ها اغلب در تلاش برای…