Hugging Face اخیراً Falcon 180B را معرفی کرده است، بزرگترین مدل زبان بزرگ منبع باز که گفته میشود مانند هوش مصنوعی پیشرفته Google، Palm 2، عملکرد خوبی دارد.
Falcon 180B به بهترین عملکرد هنری دست می یابد
عبارت “وضعیت هنر” به این معنی است که چیزی در بالاترین سطح ممکن، برابر یا فراتر از نمونه فعلی بهترین عملکرد است.
زمانی که محققان اعلام میکنند که یک الگوریتم یا مدل زبان بزرگ به بهترین عملکرد دست مییابد، مشکل بزرگی است.
و این دقیقا همان چیزی است که Hugging Face در مورد Falcon 180B می گوید.
Falcon 180B به بهترین عملکرد در کارهای زبان طبیعی دست می یابد، مدل های منبع باز قبلی را شکست می دهد و همچنین از نظر عملکرد با Palm 2 گوگل “رقیب” می کند.
اینها هم فقط فخر فروشی نیستند.
ادعای Hugging Face مبنی بر اینکه Falcon 180B رقیب Palm 2 است، توسط داده ها پشتیبانی می شود.
دادهها نشان میدهند که Falcon 180B از قدرتمندترین مدل منبع باز قبلی Llama 270B در طیف وسیعی از وظایفی که برای اندازهگیری قدرت یک مدل هوش مصنوعی استفاده میشود، بهتر عمل میکند.
Falcon 180B حتی از GPT-3.5 OpenAI بهتر عمل می کند.
داده های آزمایشی همچنین نشان می دهد که Falcon 180B در همان سطح Google’s Palm 2 عمل می کند.
اسکرین شات مقایسه عملکرد
در این اطلاعیه توضیح داده شده است:
“Falcon 180B بهترین LLM است که امروز به طور آشکار منتشر شده است، که بهتر از Llama 2 70B و GPT-3.5 OpenAI…
Falcon 180B بسته به معیار ارزیابی معمولاً جایی بین GPT 3.5 و GPT4 قرار می گیرد.
این اعلامیه ادامه می دهد که تنظیم دقیق مدل توسط کاربران ممکن است عملکرد را حتی بیشتر کند.
مشکلات فنی جزئی که نمایه سازی را مختل می کند، مانند راه اندازی تغییر مسیرهای 301 توسط پیوندهای داخلی به URL های قدیمی که با ساختار دسته بندی به روز شده اند.
مجموعه داده مورد استفاده برای آموزش Falcon 180B
Hugging Face یک مقاله تحقیقاتی (نسخه PDF در اینجا) منتشر کرد که حاوی جزئیات مجموعه داده مورد استفاده برای آموزش Falcon 180B است.
این مجموعه داده RefinedWeb نام دارد.
این مجموعه داده فقط شامل محتوای اینترنت است که از منبع باز Common Crawl، مجموعه داده های عمومی وب در دسترس است.
متعاقباً مجموعه داده فیلتر میشود و برای بهبود کیفیت آنچه باقی میماند، از طریق فرآیند حذف مجدد (حذف دادههای تکراری یا اضافی) قرار میگیرد.
آنچه محققان در تلاشند با فیلتر کردن به آن برسند، حذف هرزنامه های تولید شده توسط ماشین، محتوای تکراری، محتویات سرقت شده و داده هایی است که نماینده زبان طبیعی نیستند.
مقاله پژوهشی توضیح می دهد:
به دلیل خطاهای خزیدن و منابع با کیفیت پایین، بسیاری از اسناد حاوی توالی های مکرر هستند: این ممکن است باعث رفتار آسیب شناختی در مدل نهایی شود.
… بخش قابل توجهی از صفحات هرزنامهای هستند که توسط ماشین تولید میشوند و عمدتاً از فهرستهایی از کلمات کلیدی، متن دیگ بخار، یا دنبالهای از کاراکترهای خاص ساخته شدهاند.
چنین اسنادی برای مدل سازی زبان مناسب نیستند…
ما یک استراتژی تهاجمی deduplication را اتخاذ میکنیم، که هم مطابقتهای سند فازی و هم حذف توالیهای دقیق را ترکیب میکند.
ظاهراً فیلتر کردن و در غیر این صورت پاکسازی مجموعه داده ضروری می شود، زیرا این مجموعه منحصراً از داده های وب تشکیل شده است، برخلاف سایر مجموعه داده هایی که داده های غیر وب را اضافه می کنند.
تلاشهای محققان برای فیلتر کردن مزخرفات منجر به ایجاد مجموعهای از دادهها شد که به ادعای آنها به اندازه مجموعه دادههای مدیریتشدهای که از کتابهای دزدی دریایی و سایر منابع دادههای غیر وب تشکیل شدهاند، خوب است.
آنها با بیان اینکه مجموعه داده آنها موفقیت آمیز است، نتیجه گیری می کنند:
ما نشان دادهایم که فیلتر کردن و کپیسازی دقیق میتواند منجر به ایجاد مجموعه دادههای فقط وب پنج تریلیون توکن شود که برای تولید مدلهای رقابتی با پیشرفتهترین مدلها مناسب است، حتی بهتر از LLMهایی که بر روی مجموعههای سرپرستی آموزش دیدهاند.»
فالکون 180B دارای نرده محافظ صفر است
نکته قابل توجه در مورد Falcon 180B این است که هیچ تنظیم تراز برای جلوگیری از تولید خروجی مضر یا ناامن و هیچ چیز مانع از اختراع حقایق و دروغ گویی آشکار انجام نشده است.
در نتیجه، مدل را می توان برای تولید نوع خروجی تنظیم کرد که با محصولات OpenAI و Google قابل تولید نیست.
این در بخشی از اطلاعیه با عنوان محدودیت ها ذکر شده است.
صورت در آغوش گرفتن توصیه می کند:
«محدودیتها: مدل میتواند اطلاعات واقعی نادرست، حقایق و اقدامات توهمآور را تولید کند و خواهد کرد.
از آنجایی که تحت هیچ تنظیم/تراز پیشرفته ای قرار نگرفته است، می تواند خروجی های مشکل ساز ایجاد کند، به خصوص اگر از شما خواسته شود.
استفاده تجاری از Falcon 180B
Hugging Face امکان استفاده تجاری از Falcon 180B را فراهم می کند.
با این حال تحت یک مجوز محدود منتشر شده است.
افرادی که مایل به استفاده از Falcon 180B هستند توسط Hugging Face تشویق می شوند که ابتدا با یک وکیل مشورت کنند.
Falcon 180B مانند یک نقطه شروع است
در نهایت، این مدل تحت آموزش های آموزشی قرار نگرفته است، به این معنی که باید برای یک چت ربات هوش مصنوعی آموزش داده شود.
بنابراین مانند یک مدل پایه است که برای تبدیل شدن به آن چیزی که کاربران میخواهند به چیزهای بیشتری نیاز دارد. Hugging Face یک مدل چت نیز منتشر کرد اما ظاهراً یک مدل “ساده” است.
صورت در آغوش گرفتن توضیح می دهد:
«مدل پایه هیچ فرمت سریعی ندارد. به یاد داشته باشید که این یک مدل مکالمه یا آموزشدیده با دستورالعملها نیست، بنابراین انتظار نداشته باشید که پاسخهای مکالمهای ایجاد کند – مدل از پیش آموزشدیده یک پلت فرم عالی برای تنظیم دقیق بیشتر است، اما احتمالاً نباید مستقیماً از آن استفاده کنید.
مدل چت ساختار مکالمه بسیار ساده ای دارد.”
اطلاعیه رسمی را بخوانید:
بال های خود را باز کنید: فالکون 180 بی اینجاست
تصویر برجسته توسط Shutterstock/Giu Studios