کتابخانه های منبع باز برای بررسی ساختمان LLM

GPT-2 (XL) دارای 1.5 میلیارد پارامتر است و پارامترهای آن حدود 3 گیگابایت حافظه را با دقت 16 بیت مصرف می کنند.

با این حال، به سختی می توان آن را روی یک GPU واحد آموزش داد 30 گیگابایت از حافظه

این 10 برابر حافظه مدل است، و ممکن است تعجب کنید که چگونه می تواند حتی ممکن باشد.

در حالی که تمرکز این مقاله مصرف حافظه LLM نیست (اگر می خواهید در مورد آن بیشتر بدانید، می توانید این را بررسی کنید)، از این مثال برای کمک به شما در بررسی مقیاس غیرقابل درک و نیازهای حافظه LLM استفاده شد.

در واقع، در مثال بالا، ما یک مدل بسیار کوچک را در نظر گرفتیم – GPT-2 (XL)، با تنها 1.5 میلیارد پارامتر.

در اینجا مقایسه اندازه GPT-2 (XL) با GPT-3 آمده است تا بتوانید تصور کنید در آنجا چه اتفاقی می افتد:

یکی از چیزهایی که آموزش LLM را به طور گسترده ای با آموزش مدل های معمولی متفاوت می کند، مقیاس بزرگی است که این مدل ها به نمایش می گذارند، که به منابع و تکنیک های محاسباتی قابل توجهی برای توسعه، آموزش و استقرار کارآمد نیاز دارد.

به همین دلیل است که ساختمان معمولی LLM بسیار بیشتر در مورد “مهندسی” است تا “آموزش”.

خوشبختانه، امروزه، کتابخانه‌ها و ابزارهای تخصصی مختلفی داریم که برای انجام مراحل مختلف پروژه‌های LLM، از توسعه و آموزش اولیه تا آزمایش، ارزیابی، استقرار و ثبت‌نام طراحی شده‌اند.

این مقاله تعدادی از بهترین کتابخانه های موجود برای LLM را ارائه می دهد…

Source link