مدل های زبان بزرگ (LLM) مانند PalM یا GPT-3 نشان دادند که مقیاس ترانسفورماتورها به صدها میلیارد پارامتر عملکرد را بهبود می بخشد و توانایی های نوظهور را باز می کند. با این حال، بزرگترین مدلهای متراکم برای درک تصویر، تنها به 4 میلیارد پارامتر رسیدهاند، علیرغم تحقیقاتی که نشان میدهد مدلهای چندوجهی امیدوارکننده مانند PaLI همچنان از مدلهای بینایی مقیاسبندی در کنار همتایان زبانی خود بهره میبرند. با انگیزه این موضوع و نتایج حاصل از مقیاسبندی LLM، تصمیم گرفتیم گام بعدی را در سفر مقیاسپذیری Vision Transformer انجام دهیم.
در “مقیاس سازی ترانسفورماتورهای بینایی به 22 میلیارد پارامتر”، ما بزرگترین مدل دید متراکم، ViT-22B را معرفی می کنیم. این 5.5 برابر بزرگتر از بزرگترین ستون بینایی قبلی، ViT-e است که دارای 4 میلیارد پارامتر است. برای فعال کردن این مقیاسبندی، ViT-22B ایدههایی را از مدلهای متنی مقیاسبندی مانند PaLM، با بهبود هم در پایداری تمرین (با استفاده از نرمالسازی QK) و هم در کارایی تمرین (با رویکرد جدیدی به نام عملیات خطی موازی ناهمزمان) ترکیب میکند. به عنوان یک نتیجه از معماری اصلاح شده، دستور اشتراک گذاری کارآمد و اجرای سفارشی، توانست بر روی Cloud TPU با استفاده از سخت افزار بالا آموزش ببیند.1. ViT-22B در بسیاری از وظایف بینایی با استفاده از نمایشهای منجمد یا با تنظیم دقیق کامل، وضعیت هنر را ارتقا میدهد. علاوه بر این، این مدل همچنین با موفقیت در PaLM-e مورد استفاده قرار گرفته است، که نشان داد یک مدل بزرگ ترکیبی از ViT-22B با یک مدل زبانی میتواند به طور قابل توجهی وضعیت هنر را در کارهای رباتیک ارتقا دهد.
معماری
کار ما بر اساس پیشرفت های بسیاری از LLM ها، مانند PalM و GPT-3 است. در مقایسه با معماری استاندارد Vision Transformer، ما از لایههای موازی استفاده میکنیم، رویکردی که در آن بلوکهای توجه و MLP بهجای متوالی مانند ترانسفورماتور استاندارد، به صورت موازی اجرا میشوند. این رویکرد در PalM استفاده شد و زمان تمرین را تا 15 درصد کاهش داد.
ثانیاً، ViT-22B سوگیریها را در پیشبینیهای QKV، بخشی از مکانیسم توجه به خود، و در LayerNorms حذف میکند، که استفاده را تا 3 درصد افزایش میدهد. نمودار زیر معماری ترانسفورماتور اصلاح شده مورد استفاده در ViT-22B را نشان می دهد:
![]() |
معماری رمزگذار ترانسفورماتور ViT-22B از لایههای پیشخور موازی استفاده میکند، بایاسها را در لایههای QKV و LayerNorm حذف میکند و پیشبینیهای Query و Key را عادی میکند. |
مدلهای در این مقیاس به «شاردهسازی» نیاز دارند – توزیع پارامترهای مدل در دستگاههای محاسباتی مختلف. در کنار این، ما را نیز خرد می کنیم فعال سازی ها (نمایش های میانی یک ورودی). حتی چیزی به سادگی ضرب ماتریس نیاز به مراقبت بیشتری دارد، زیرا هم ورودی و هم خود ماتریس در بین دستگاهها توزیع میشوند. ما رویکردی به نام ایجاد می کنیم عملیات خطی موازی ناهمزمانبه موجب آن ارتباطات فعالسازیها و وزنها بین دستگاهها همزمان با محاسبات در واحد ضرب ماتریس (بخشی از TPU که اکثریت عظیمی از ظرفیت محاسباتی را در اختیار دارد) رخ میدهد. این رویکرد ناهمزمان زمان انتظار در ارتباطات ورودی را به حداقل میرساند و در نتیجه کارایی دستگاه را افزایش میدهد. انیمیشن زیر نمونه ای از محاسبات و الگوی ارتباطی برای ضرب ماتریس را نشان می دهد.
![]() |
عملیات خطی موازی ناهمگام هدف محاسبه ضرب ماتریس y = Ax است، اما هر دو ماتریس A و فعال سازی x در دستگاه های مختلف توزیع شده اند. در اینجا نشان میدهیم که چگونه میتوان آن را با ارتباطات و محاسبات همپوشانی بین دستگاهها انجام داد. ماتریس A در سراسر دستگاه ها به صورت ستونی تقسیم شده است، هر کدام یک برش پیوسته را در خود جای داده است، هر بلوک به صورت A نشان داده شده است.ij. جزئیات بیشتر در مقاله موجود است. |
در ابتدا، مقیاس مدل جدید منجر به بی ثباتی شدید آموزشی شد. رویکرد عادی سازی گیلمر و همکاران. (2023، آینده) این مسائل را حل کرد و امکان آموزش مدل صاف و پایدار را فراهم کرد. این با نمونه پیشرفت های آموزشی در زیر نشان داده شده است.
![]() |
تأثیر عادی سازی پرس و جوها و کلیدها (نرمال سازی QK) در لایه خودتوجهی بر پویایی آموزش. بدون نرمالسازی QK (قرمز) گرادیانها ناپایدار میشوند و افت تمرینی واگرا میشوند. |
نتایج
در اینجا برخی از نتایج ViT-22B را برجسته می کنیم. توجه داشته باشید که در این مقاله چندین حوزه مشکل دیگر مانند طبقه بندی ویدئو، تخمین عمق و تقسیم بندی معنایی را نیز بررسی می کنیم.
برای نشان دادن غنای نمایش آموخته شده، ما یک مدل متن را آموزش می دهیم تا بازنمایی هایی تولید کند که نمایش های متن و تصویر را تراز می کند (با استفاده از تنظیم LiT). در زیر چندین نتیجه را برای تصاویر خارج از توزیع تولید شده توسط Parti و Imagen نشان می دهیم:
![]() |
نمونه هایی از درک تصویر + متن برای ViT-22B همراه با یک مدل متنی. نمودار توزیع احتمال نرمال شده را برای هر توصیف یک تصویر نشان می دهد. |
تراز تشخیص اشیاء انسانی
برای اینکه بفهمیم چقدر تصمیمات طبقهبندی ViT-22B با تصمیمات طبقهبندی انسانی همسو هستند، ViT-22B را با دقت تنظیم شده با وضوحهای مختلف در مجموعه دادههای خارج از توزیع (OOD) ارزیابی کردیم که دادههای مقایسه انسانی برای آنها از طریق مدل-در مقابل- در دسترس است. جعبه ابزار انسان این جعبه ابزار سه معیار کلیدی را اندازهگیری میکند: مدلها چقدر با تحریفها (دقت) کنار میآیند؟ دقت انسان و مدل چقدر متفاوت است (تفاوت دقت)؟ در نهایت، الگوهای خطای انسان و مدل (ثبات خطا) چقدر شبیه هستند؟ در حالی که همه رزولوشن های تنظیم دقیق به یک اندازه خوب عمل نمی کنند، انواع ViT-22B برای هر سه معیار پیشرفته هستند. علاوه بر این، مدلهای ViT-22B همچنین دارای بالاترین سوگیری شکل ثبت شده در مدلهای بینایی هستند. این بدان معنی است که آنها بیشتر از شکل شی، به جای بافت شی، برای اطلاع رسانی تصمیمات طبقه بندی استفاده می کنند – یک استراتژی شناخته شده از درک انسان (که دارای سوگیری شکل 96٪ است). مدلهای استاندارد (مثلا ResNet-50، که دارای سوگیری شکل ~ 20-30٪ است) اغلب تصاویری مانند گربه با بافت فیل را بر اساس بافت (فیل) در زیر طبقهبندی میکنند. مدلهای با سوگیری شکل بالا تمایل دارند به جای آن روی شکل تمرکز کنند (گربه). در حالی که هنوز تفاوتهای مهم زیادی بین ادراک انسان و مدل وجود دارد، ViT-22B شباهتهای بیشتری را به تشخیص شی بصری انسان نشان میدهد.
![]() |
گربه یا فیل؟ ماشین یا ساعت؟ پرنده یا دوچرخه؟ تصاویر نمونه با شکل یک شی و بافت یک شی متفاوت، که برای اندازه گیری سوگیری شکل/بافت استفاده می شود. |
![]() |
ارزیابی سوگیری شکل (بالاتر = بیشتر با سوگیری شکل). بسیاری از مدلهای بینایی دارای سوگیری شکل کم / بافت بالا هستند، در حالی که ViT-22B تنظیم دقیق در ImageNet (قرمز، سبز، آبی که روی تصاویر 4B آموزش داده میشود، همانطور که با براکتهای بعد از نام مدل نشان داده میشود، مگر اینکه فقط در ImageNet آموزش داده شده باشند) دارای بیشترین تعصب شکل هستند. تا به امروز در یک مدل ML ثبت شده است، و آنها را به یک سوگیری شکل انسان مانند نزدیک می کند. |
عملکرد خارج از توزیع
اندازه گیری عملکرد در مجموعه داده های OOD به ارزیابی تعمیم کمک می کند. در این آزمایش، ما نقشههای برچسب (نگاشت برچسبها بین مجموعههای داده) را از JFT به ImageNet و همچنین از ImageNet به مجموعهدادههای مختلف خارج از توزیع مانند ObjectNet میسازیم (نتایج پس از آموزش قبلی روی این دادهها در منحنی سمت چپ نشان داده شده است). سپس مدل ها به طور کامل در ImageNet تنظیم می شوند.
مشاهده میکنیم که مقیاسبندی Vision Transformers عملکرد OOD را افزایش میدهد: حتی اگر دقت ImageNet اشباع شود، ما شاهد افزایش قابلتوجهی در ObjectNet از ViT-e به ViT-22B هستیم (که با سه نقطه نارنجی در سمت راست بالا نشان داده شده است).
![]() |
حتی اگر دقت ImageNet اشباع شود، ما شاهد افزایش قابل توجهی در عملکرد در ObjectNet از ViT-e/14 به ViT-22B هستیم. |
کاوشگر خطی
کاوشگر خطی تکنیکی است که در آن یک لایه خطی منفرد در بالای یک مدل منجمد آموزش داده می شود. در مقایسه با تنظیم دقیق کامل، آموزش بسیار ارزانتر و راهاندازی آسانتر است. ما مشاهده کردیم که کاوشگر خطی عملکرد ViT-22B به تنظیمات دقیق مدل های کوچکتر با استفاده از تصاویر با وضوح بالا نزدیک می شود (آموزش با وضوح بالاتر معمولاً بسیار گران تر است، اما برای بسیاری از کارها نتیجه می دهد. نتایج بهتر). در اینجا نتایج یک کاوشگر خطی آموزش داده شده بر روی مجموعه داده ImageNet و ارزیابی شده بر روی مجموعه داده اعتبارسنجی ImageNet و سایر مجموعه داده های OOD ImageNet است.
تقطیر
دانش مدل بزرگتر را می توان با استفاده از روش تقطیر به مدل کوچکتر منتقل کرد. این مفید است زیرا مدل های بزرگ کندتر و گران تر هستند. ما متوجه شدیم که دانش ViT-22B را می توان به مدل های کوچکتر مانند ViT-B/16 و ViT-L/16 منتقل کرد و به وضعیت جدیدی از هنر در ImageNet برای آن اندازه مدل دست یافت.
انصاف و تعصب
مدلهای ML میتوانند مستعد سوگیریهای ناخواسته ناعادلانه باشند، مانند انتخاب همبستگیهای جعلی (اندازهگیری شده با استفاده از برابری جمعیتی) یا داشتن شکافهای عملکردی در بین زیر گروهها. ما نشان میدهیم که افزایش اندازه به کاهش چنین مسائلی کمک میکند.
اول، مقیاس مرز مبادله مطلوب تری را ارائه می دهد – عملکرد با مقیاس بهبود می یابد، حتی زمانی که مدل پس از آموزش پردازش می شود تا سطح برابری جمعیتی آن زیر یک سطح قابل تحمل و تجویز شده کنترل شود. نکته مهم، این است که نه تنها زمانی که عملکرد از نظر دقت اندازهگیری میشود، بلکه سایر معیارها مانند کالیبراسیون که معیاری آماری از صحت احتمالات تخمین زده شده مدل است نیز صادق است. دوم، طبقهبندی همه زیر گروهها با مقیاس بهبود مییابد که در زیر نشان داده شده است. سوم، ViT-22B شکاف عملکرد را در بین زیر گروه ها کاهش می دهد.
![]() |
![]() |
بالا: دقت برای هر زیر گروه در CelebA قبل از انحراف. پایین: محور y تفاوت مطلق عملکرد را در بین دو زیر گروه مشخص شده در این مثال نشان می دهد: زنان و مردان. ViT-22B در مقایسه با معماری های کوچکتر ViT شکاف کمی در عملکرد دارد. |
نتیجه گیری
ما ViT-22B را ارائه کرده ایم که در حال حاضر بزرگترین مدل ترانسفورماتور بینایی با 22 میلیارد پارامتر است. با تغییرات کوچک اما حیاتی در معماری اصلی، ما به استفاده از سختافزار عالی و پایداری آموزشی دست یافتیم و مدلی را ارائه دادیم که وضعیت هنر را در چندین معیار پیشرفت میکند. عملکرد عالی را می توان با استفاده از مدل یخ زده برای تولید جاسازی و سپس آموزش لایه های نازک در بالا به دست آورد. ارزیابیهای ما بیشتر نشان میدهد که ViT-22B در مقایسه با مدلهای موجود، شباهتهای بیشتری را به ادراک بصری انسان نشان میدهد، و در مقایسه با مدلهای موجود، مزایایی را در انصاف و استحکام ارائه میدهد.
سپاسگزاریها
این اثر مشترک مصطفی دهقانی، جوسیپ جولانگا، باسیل مصطفی، پیوتر پادلوسکی، جاناتان هیک، جاستین گیلمر، آندریاس اشتاینر، ماتیلد کارون، رابرت گیرهوس، ابراهیم آلابدالموحسین، رودولف جناتتون، لوکاس بیر، مایکل تشاننن، ژاویراگو آراگو است. کارلوس ریکلمه، ماتیاس میندرر، جوآن پویگسرور، اوتکو اوچی، مانوج کومار، جورد ون استینکیست، گامالالدین فتحی، الساید آراوینده ماهندران، فیشر یو، آویتال الیور، فانتین هوت، جاسمین باستینگز، مارک پاتریک کولیهریستن، الکسی، واسکونسلوس، یی تای، توماس منسینک، الکساندر کولسنیکوف، فیلیپ پاوتیچ، داستین تران، توماس کیپف، ماریو لوچیچ، شیائووا ژای، دنیل کیسرز جرمیا هارمسن و نیل هولزبی
مایلیم از جاسپر اوایلینگ، جرمی کوهن، آروشی گوئل، رادو سوریکوت، زینگی ژو، لوئیس کاستروژون، آدام پاسکه، جوئل بارال، فدریکو لبرون، بلیک هختمن و پیتر هاوکینز تشکر کنیم. تخصص و پشتیبانی بی دریغ آنها نقش مهمی در تکمیل این مقاله ایفا کرد. ما همچنین از همکاری و فداکاری محققان و مهندسان با استعداد در Google Research قدردانی می کنیم.
1توجه: ViT-22B دارای 54.9٪ استفاده از FLOPs مدل (MFU) است در حالی که PalM 46.2٪ MFU را گزارش کرده است و ما 44.0٪ MFU را برای ViT-e روی همان سخت افزار اندازه گیری کردیم. ↩