GPT-2 (XL) دارای 1.5 میلیارد پارامتر است و پارامترهای آن حدود 3 گیگابایت حافظه را با دقت 16 بیت مصرف می کنند.
با این حال، به سختی می توان آن را روی یک GPU واحد آموزش داد 30 گیگابایت از حافظه
این 10 برابر حافظه مدل است، و ممکن است تعجب کنید که چگونه می تواند حتی ممکن باشد.
در حالی که تمرکز این مقاله مصرف حافظه LLM نیست (
در واقع، در مثال بالا، ما یک مدل بسیار کوچک را در نظر گرفتیم – GPT-2 (XL)، با تنها 1.5 میلیارد پارامتر.
در اینجا مقایسه اندازه GPT-2 (XL) با GPT-3 آمده است تا بتوانید تصور کنید در آنجا چه اتفاقی می افتد:
یکی از چیزهایی که آموزش LLM را به طور گسترده ای با آموزش مدل های معمولی متفاوت می کند، مقیاس بزرگی است که این مدل ها به نمایش می گذارند، که به منابع و تکنیک های محاسباتی قابل توجهی برای توسعه، آموزش و استقرار کارآمد نیاز دارد.
به همین دلیل است که ساختمان معمولی LLM بسیار بیشتر در مورد “مهندسی” است تا “آموزش”.
خوشبختانه، امروزه، کتابخانهها و ابزارهای تخصصی مختلفی داریم که برای انجام مراحل مختلف پروژههای LLM، از توسعه و آموزش اولیه تا آزمایش، ارزیابی، استقرار و ثبتنام طراحی شدهاند.
این مقاله تعدادی از بهترین کتابخانه های موجود برای LLM را ارائه می دهد…