این مقاله با ترانسفورماتورها شروع می شود و به عنوان یک مدل تعبیه به کاستی های آن می پردازد. سپس یک نمای کلی از BERT و غواصی عمیق در جمله BERT (SBERT) ارائه میکند که پیشرفتهترین جاسازی جملات برای خطوط لوله LLM و RAG است.
توضیح تصویری
اگر شما هم مثل من فردی بصری هستید و دوست دارید توضیح تصویری را تماشا کنید، لطفا این ویدیو را ببینید:
ترانسفورماتورها
ترانسفورماتورها نیازی به معرفی ندارند. اگرچه آنها در ابتدا برای کارهای ترجمه زبان طراحی شده بودند، اما امروزه تقریباً همه LLM ها را به عنوان اسب های محرک پشت سر می گذارند.
در سطح بالا، آنها از دو بلوک – رمزگذار و رمزگشا تشکیل شده اند. بلوک رمزگذار ورودی را می گیرد و یک نمایش ماتریسی را خروجی می دهد. بلوک رمزگشا خروجی آخرین رمزگذار را می گیرد و خروجی را تولید می کند. بلوک های رمزگذار و رمزگشا می توانند از چندین لایه تشکیل شده باشند، اگرچه ترانسفورماتور اصلی دارای 6 لایه در هر بلوک است.
تمام لایه ها از خود توجهی چند سر تشکیل شده است. با این حال، تنها تفاوت بین رمزگذار و رمزگشا این است که خروجی انکودر به هر لایه از رسیور تغذیه می شود. از نظر لایه های توجه، لایه های توجه رمزگشا پوشانده شده اند. بنابراین، خروجی در هر موقعیتی تحت تأثیر خروجی موقعیت های قبلی است.
رمزگذار و …