اوراکل ابر ادعا می کند بازوی مزیت عملکرد ویدیو بیش از تراشه های x86

در آخرین اقدام خود برای تمایز یافتن در زمینه ای که سالها پیش سخت تر شده بود ، هفته گذشته Oracle Cloud به طور رسمی اولین سری محاسبات مبتنی بر VM و فلزات برهنه خود را بر اساس پردازنده های Arm – به طور خاص 80 هسته ای Ampere Altra – راه اندازی کرد. Oracle میزبان این نمونه های جدید “A1” برای مشتریان خاص بود.

Bev Clark ، معاون ارشد Oracle Cloud Infrastructure برای محاسبه ، با DCK گفت: “Oracle تنها ارائه دهنده Cloud است که نمونه های Arm را در آنچه من” هسته پنی “می نامم ارائه می دهد. “این یک سنت در ساعت است ، با اندازه موتور انعطاف پذیر ما از 1 تا 80 OCPU یا سرورهای فلزی لخت ، با 160 هسته و یک ترابایت حافظه.”

کالاهای محاسبه شده Oracle Cloud Infrastructure (OCI) براساس معیاری است که کلارک به آن OCPU گفته است. به طور معمول ، یک OCPU با یک هسته پردازنده در ارتباط است و OCI قادر است ماشین های مجازی را در امتداد مرزهای اصلی تقسیم کرده و پردازنده های مجازی با مرزهای بسیار انعطاف پذیر را در دسترس قرار دهد. “پنی هسته” کلارک به یک هسته پردازنده Altera گفته می شود که با قیمت 0.01 دلار در ساعت در دسترس است. (در واقع برای هر گیگابایت حافظه مصرفی 0.0015 دلار در ساعت شارژ اضافی وجود دارد.) ایستادن در برابر یک کار تک هسته ای در واقع امکان پذیر است ، اگرچه OCI نمونه های کوچک A1 را نیز در سطح رایگان خود و بدون هیچ هزینه ای در دسترس قرار می دهد.

چرا مشتریان OCI یا هر ارائه دهنده خدمات ابری دیگر می خواهند بارهای خود را از x86 به یک محیط Arm منتقل کنند؟ کلارک به آنچه او توصیف کرد عملکرد قابل پیش بینی فزاینده ای از یک هسته تک رشته ای است. این پیش بینی می تواند عامل مقیاس بندی منظم تری باشد ، جایی که می توان فرض کرد چهار هسته عملکرد تقریبا چهار برابر یک هسته دارد تا حدود سه و نیم. وی همچنین به عدم وجود موارد امنیتی که در اطراف hyperthreading وجود دارد اشاره کرد ، این روش Intel برای تقسیم رشته در یک هسته به دو هسته است.

Ampere v Intel و AMD

DCK سعی کرد این ادعاها را آزمایش کند. ما از Oracle آخرین داده های عملکرد موجود خود را برای یک کار در دنیای واقعی درخواست کردیم ، و موارد آمپر A1 را در برابر نمونه های x86 VM مشابه مجهز قرار دهیم. OCI ما را با ارائه اطلاعات معیار منحصر به فرد برای یک کار رمزگذاری ویدیو ملزم می کند: سرعت ، در فریم در ثانیه ، برای یک کار رمزگذاری ویدیو.

تیم OCI نمونه های جدید A1 خود را در برابر نمونه های VM با میزبانی پردازنده های نسل دوم “رم” AMD (E3) و پردازنده های نسل سوم “میلان” (E4) ، به علاوه پردازنده های نسل دوم “Skylake” اینتل (X7) قرار داد. تعداد رشته ها از 1 تا 8 به طور جداگانه آزمایش شد تا مقیاس پذیری را نشان دهد.

یک هسته A1 ویدیو را کدگذاری می کند با نرخ 4.93 فریم در ثانیه ، با توجه به تست های OCI. که در مقایسه با 6.34 FPS برای E3 ، 6.8 FPS برای E4 و بسیار کم چشم 3.55 FPS برای Intel X7.

با استفاده از داده های اوراکل برای شمارش نخ از 1 تا 8 ، زمان رمزگذاری را برای یک ویدیوی دیجیتال 30 دقیقه ای معمولی پیش بینی کردیم که با 29.97 فریم در ثانیه کار می کند و بنابراین شمارش کلی فریم آن 107،892 است.

اسکات فولتونOCI

در سطح تک هسته ای ، عملکرد A1 از پردازنده های Intel و AMD شروع می شود. اما به نظر می رسد مقیاس پذیری Skylake در 7 هسته قرار داشته باشد ، در حالی که Ampere Altra به زیر ارقام نمونه های AMD می رود و به نظر می رسد تا 12 رشته می تواند عملکرد را بهبود بخشد.

هرچند آنچه ما واقعاً می خواستیم بدانیم این بود که آیا نمونه های A1 واقعاً اقتصادی هستند. شایان ذکر است که یک واحد OCPU مبتنی بر x86 به حساب می آید دو رشته ها ، نه فقط یک (به عنوان اوراکل به ما تأیید کرد) به دلیل وجود همگرایی داخلی. بنابراین ، یک نمونه x-OCPU x86 برای شما 8 رشته فراهم می کند که برای آن به یک نمونه A1 8-OCPU نیاز دارید. این ممکن است تا حدودی بر فاکتور مقیاس پذیری تأثیر بگذارد ، زیرا Skylake ، رم و میلان باید از نظر تئوری مقیاس پذیری Altra را دو برابر کنند.

اسکات فولتونOCI

اوراکل پیشنهاد داد معیاری را بنام آن بررسی کنیم فریم در ثانیه به ازای هر دلار (FPS / $) با استفاده از اندازه گیری فریم در ثانیه OCI ، به نظر می رسد A1 با افزایش مقیاس OCPU هزینه قابل پیش بینی قابل توجهی دارد. تعداد رشته های زوج و فرد به دلیل فاکتور دو رشته ای OCI در OCPU برای سه نوع نمونه دیگر متغیر است. با این وجود ، اگرچه به نظر می رسد نمونه های مبتنی بر AMD بهترین عملکرد را برای دلار در 2 رشته ارائه می دهند ، اما این اوج به طور مرتب تا 8 رشته کاهش می یابد. و هزینه Skylake – حداقل در Oracle Cloud – قابل توجیه نیست.

اسکات فولتونOCI

داستان واقعی این نوار زمانی است که هزینه دلار و سنت رمزگذاری آن ویدئوی نیم ساعته را تخمین می زنیم. اگر بخواهید 8 رشته در OCI رزرو کنید ، برای شغلی که برای شما یک نیکل در A1 و 8 ¢ در یک نمونه مستقر در رم یا میلان برای شما هزینه دارد ، به عنوان نمونه X7 81 81 پرداخت می کنید.

کلارک اوراکل فضیلت عملکرد تک رشته ای قابل پیش بینی را تبلیغ کرد. ما پرسیدیم ، ارزش پیشنهادی برای اجرای وظایف تک رشته ای در یک ماشین مجازی که توسط پردازنده 80 هسته ای مانند Ampere Altra A1 میزبانی شده است ، مگر اینکه مشتری چند کار را به طور موازی اجرا کند؟

مت لئونارد ، معاون محاسبه OCI ، در یادداشتی به DCK پاسخ داد: “ارزش پیشنهادی عملکرد قابل پیش بینی و کاهش عظیمی در اثر همسایه پر سر و صدای اجرای یک هسته تک رشته ای است.”

لئونارد ادامه داد: “در یک محیط چند مستاجر ، شما می توانید چندین مستاجر را از طریق یک محیط چند رشته ای برای منابع مشابه رقابت کنید و این عملکرد غیر قابل پیش بینی را به همراه خواهد داشت. تا حدی ، این مربوط به همه پردازنده های چند هسته ای است ، [as] کاربردهای ابری عمدتا چند رشته ای هستند و به طور پیش فرض قادر به استفاده از چندین هسته هستند. موازی کاری وظیفه یکی از راههای استفاده از تعداد زیادی هسته است. موازی کاری در سطح نخ موضوع دیگری است. اگر کسی بخواهد یک VM را برای اجرای یک کار تک رشته ای اجاره کند ، یک ماشین مجازی 80 هسته ای را اجاره نمی دهد. آنها می توانند به یکی با 1 vCPU بچسبند. در این حالت ، A1 عملکرد قابل پیش بینی با هزینه بسیار کمتری نسبت به ماشین های مجازی قابل مقایسه با x86 ارائه می دهد. “

لئونارد همچنین برای ما تأیید کرد که در واقع برای یک مشتری OCI امکان دارد خوشه های Kubernetes را برای هر دو OCPU مبتنی بر A1 و x86 بچرخاند و هر دو کلاس را از یک مرکز واحد مدیریت کند. وی خاطرنشان کرد که این امکان وجود دارد زیرا هر خوشه قادر به پشتیبانی از آنچه اوراکل “شکل” خود می خواند ، است که اصطلاح OCI برای پیکربندی است که الگوی آن مقدار مشخصی از OCPU و حافظه را کنار می گذارد.

در ژوئن 2020 ، در حالی که آمپر در حال انجام نسخه 128 هسته ای پردازنده Altra خود بود ، VP ارشد آن در آن زمان ، جف ویتیتچ (از زمان ارتقا to به عنوان مدیر ارشد محصولات) اولین داده های نتیجه آزمایش را ارائه داد که به نظر می رسید عملکرد Altra را برای هر مورد نشان می دهد تعداد هسته ها یک ضرب تقریباً کامل از عملکرد تک هسته ای آن بود.

محاسبات آمپرOCI

ویتیچ توضیح داد: “ما از هسته های تک رشته ای استفاده می کنیم.” “این بدان دلیل است که ما می خواهیم اطمینان حاصل کنیم که در نهایت با مشکلات پر سر و صدا همسایه مواجه نخواهیم شد [and] بهترین عملکرد ممکن بدون داشتن اختلاف زیاد در منابع. و ما نمی خواهیم سطح حمله را برای مواردی مانند حملات کانال جانبی باز کنیم. بنابراین ، برای ما ، وقتی نخ ها را مقیاس بندی می کنید ، هسته های فیزیکی را مقیاس بندی می کنید. و می بینید که ما تقریباً در مقیاس بندی ایده آل هستیم. همانطور که در 160 هسته را در دو سوکت مقیاس می زنید ، 98 درصد عملکردی را که انتظار دارید تا رسیدن به 160 هسته بدست آورید. “

OCI همچنین در دسترس قرار دادن نمونه های آمپر فلز برهنه در سیستم های پردازنده دوگانه (برای 160 هسته) با 1 ترابایت حافظه است. این اقدام اوراكل در پی اعلام غافلگیركننده آمپر مبنی بر شروع توسعه هسته های مبتنی بر بازوی خود برای مدل های آینده به جای اتكا به طرح های Arm Neoverse N1 صورت می گیرد.