Современные платформы серверов стандартной архитектуры

--> Дата: Ноя 27, 2018 191

Эволюция серверных технологий в значительной степени связана с появлением новых процессоров, которые уже давно перестали быть просто одним из компонентов системы. Сегодня это полноценные SoC, включающие контроллеры памяти и ввода-вывода и в результате непосредственно влияющие и на возможности подсистемы хранения и сетевого слоя. Таким образом, когда речь идет о процессорных линейках, фактически подразумеваются серверные платформы, определяющие состав модельных рядов массовых серверов.

В этом плане интересно посмотреть, как новые процессорные линейки Intel Xeon Scalable и AMD EPYC – выпущенные в 2017 г. и остающиеся актуальными и сейчас, – повлияли на изменение функционала современных серверных решений и текущий состав модельных рядов основных вендоров. Рассматривать мы будем только старшие семейства процессоров для конфигураций от двух сокетов и более. Тем, кого интересует сегмент 1P, можно рекомендовать статью «Тяжелые легкие серверы» («Бестселлеры IT-рынка», №4’2017).

Intel Xeon Scalable

Если ранее у Intel существовало четкое разделение линеек: серия Xeon E7 для критических нагрузок и отказоустойчивых систем и Xeon E5 для универсальных серверов, – то сегодня все семейства серверных процессоров имеют единую архитектуру с общим циклом обновления. И это принципиальный момент.

Масштабирование

На одной и той же платформе (с обобщающим кодовым названием Purley) теперь можно построить любые системы, от односокетных до восьмисокетных и выше. Число предлагаемых моделей процессоров небывалое: только в основной линейке Xeon Scalable их сейчас насчитывается более 50! Плюс появилась спецсерия расширенных SoC Xeon D для сверхплотных решений. Компания Intel решила одним махом удовлетворить все потребности с помощью единой архитектуры под один сокет.

Такой подход стал возможен с внедрением принципиально иной схемы работы с кэш-памятью второго и третьего уровня и введением новой топологии межсоединения ядер внутри чипа. Это напрямую связанные между собой вещи, так как основной задачей межъядерных связей является обеспечение так называемой когерентности памяти. Во избежание ошибок ядра должны согласовывать изменения данных на случай, если разные потоки обрабатывают одни и те же данные. Это в общем верно и для межсокетных связей в сервере, только там речь идет о защите данных в ОЗУ, а здесь – о данных во внутренней кэш-памяти чипа.

Ранее в Intel Xeon была реализована так называемая кольцевая топология межъядерных соединений. С увеличением числа ядер пришлось добавить второе кольцо, так как архитектура с одним кольцом стала узким местом. Но такой подход ограничивал дальнейший поступательный рост. Ныне введена mesh-сетка – матричная топология. Теперь каждое ядро имеет свой кэш второго уровня (1 Мбайт), область в кэше третьего уровня и собственный агент, управляющий когерентностью. До этого такое решение было реализовано в многоядерных чипах Xeon Phi.

Самое главное, что такой подход упрощает дальнейшее наращивание числа ядер (то самое масштабирование) без возникновения узких мест по части межузлового взаимодействия. И потенциально на следующем поколении Xeon эта топология может повлечь за собой уже кратное увеличение ядер.

Серия построена на микроархитектуре Skylake-SP, т. е. ядрах Core 6-го поколения. Она подразделяется на пять номерных серий, объединяемых под четырьмя зонтичными наименованиями Platinum (8100), Gold (6100, 5100), Silver (4100) и Bronze (3100).

Platinum находится в некотором роде на той же позиции, что и Xeon E7. Он поддерживает конфигурации до восьми процессоров и более. Здесь максимальное число ядер в линейке – до 28 и до 56 потоков соответственно (8180/8176). Но здесь же есть и решение всего на 4 ядра/8 потоков, зато максимальной частоты – 3,6 ГГц (8156).

Однако по сравнению с E7 есть некоторое отличие в продвижении продукта. В позиционировании Xeon E7 акцент делался на функции обеспечения гарантированной надежности вычислений (RAS) и предельной производительности, а также на максимальные объемы ОЗУ, с прицельным позиционированием на критические среды; по факту это заход на поляну RISC-серверов среднего класса.

А вот Platinum понимается скорее как наиболее мощная часть общей платформы. Серия имеет максимальное число ядер и межпроцессорных соединений – три линии UPI по 10,4 ГТ/c, что позволяет с малыми задержками обеспечить взаимодействие в многосокетной системе. Поддерживаются функции RAS, но они поддерживаются и в серии Gold, например, равно как и предельные скорости памяти – DDR4-2666 поддерживается и в серии Gold 6100. Некоторые модели могут иметь в два раза больший объем ОЗУ на сокет – до 1,5 Тбайт, и таковые опять же есть и в серии 6100.

Нацеленность Intel на охват тех самых критических сред, конечно, никуда не делась, даже усилилась, но она теперь стала общей для всего семейства. Просто в рамках масштабируемой платформы существуют и усеченные дешевые варианты для малых ИС.

Что касается многопроцессорности, серия Gold также поддерживает четырехпроцессорные конфигурации. Серия 6100 имеет такие же, как у Platinum, три линии UPI, а у серии 5100 их только две.

Поэтому если раньше в четырехсокетных серверах уровня предприятия, скажем, HPE ProLiant DL580 Gen9, Dell PowerEdge R930, Fujitsu Primergy RX4770 M3 или Lenovo System x3850 X6, использовались исключительно Xeon E7-8800/4800, то в современных инкарнациях этих моделей – DL580 Gen10, PowerEdge R940/T940, Primergy RX4770 M3, Lenovo ThinkSystem SR860 – допустимо применение не только Platinum, но и процессоров Gold. Единственный случай, когда использование чипов Platinum 8100 становится безальтернативным – это восьмипроцессорные комплексы, например Lenovo ThinkSystem SR960.

Одновременно процессорами Platinum до 28 ядер могут комплектоваться любые старшие двухпроцессорные системы – HPE ProLiant DL380/DL360 Gen10, Dell PowerEdge R740, Fujitsu Primergy RX2540 M4, Lenovo ThinkSystem SR650/SR630 и многие другие. Но такие модели могут быть построены и на младших чипах вплоть до Bronze 3100.

Линейки Silver и Bronze поддерживают двухсокетные конфигурации, имеют по две линии UPI, причем чуть менее широких – 9,6 ГТ/c, как в предыдущем поколении Xeon. Ну и конечно, серии 5100/4100/3100 имеют заведомо меньшее число ядер – до 14 у 5100, до 12 у 4100 и до 8 у Bronze 3100, причем в последнем случае ядра однопоточные. На этих сериях строятся серверы для менее нагруженных сред – линейки для малого бизнеса и филиалов типа Fujitsu Primergy RX2520 M4.

Вычислительная мощность

Что касается самих ядер, то в них основное нововведение – поддержка инструкций Advanced Vector Extension 512 (AVX-512) для работы с 512-битными векторами. Теоретически это двукратно увеличивает производительность в работе с числами с плавающей запятой двойной точности (до 32 flops) и с другими типами плавающей и целочисленной арифметики. Но количество приложений с поддержкой таких инструкций пока еще очень мало. Плюс при задействовании инструкций AVX-512 превентивно ограничиваетcя частота работы ядра – они весьма прожорливые.

Интересно, что чипы AMD EPYC реализуют поддержку в четыре раза более коротких векторов – всего 128 бит. Тем не менее на сегодняшних тестах они показывают сходную производительность, а то и превышающую результаты Xeon Purley в операциях с плавающей запятой – вероятно, благодаря большей эффективности и адаптации современного ПО к такому более простому варианту.

И все же внедрение AVX-512 отражает возрастающую роль сложных с математической точки зрения задач для серверной тематики в целом. Моделирование, бизнес-аналитика, искусственный интеллект – вот те задачи, для которых имеют значимость решения типа AVX-512. И акцентированная нацеленность именно на такие задачи говорит о многом. Если несколько лет назад серверные комплексы для HPC были локальными позициями в портфеле избранных вендоров, то сегодня они занимают все более весомую часть ассортимента. Да и строятся они не только из узконаправленных блоков или на базе специализированных монолитных систем, но и на базе кластеров из массовых моделей обычных серверов.

Соответственно адаптируются и процессоры. В случае Intel – это явное использование опыта создания спецпроцессоров семейства Xeon Phi, элементы которого отчетливо заметны при взгляде на Xeon Purley.

Периферия и гибкость

Еще одно важное отличие Xeon Scalable заключается в аппаратной реализации нескольких периферийных функций. Конструктивно перечисленные решения могут быть реализованы на базе чипсета, но технически в рамках серии это решается по-разному. Есть внешние чипсеты серии Intel C620 (Lewisburg), в которых, кроме всего прочего, реализован сетевой Ethernet-контроллер аж на четыре канала 10 Гбит/c. Раньше такое было доступно только в составе внешних PCI-карт. Есть еще интересная функция Intel QuickAssist Technology (QAT) – это ускоритель для работы с компрессией и криптографией. Функция позволяет разгрузить от этих задач основные ядра CPU.

Эти подсистемы могут быть перенесены на подложку процессора специального семейства SoC Xeon D. Здесь расчет на плотные компоновки серверов (чипы Xeon D напаиваются на материнскую плату заводским методом).

Есть и значимые добавки по части периферии и на саму подложку CPU Xeon Scalable – скажем, спецверсии чипов с интерконнектом Omni-Path. Это широкополосное соединение для связи в нагруженных кластерных узлах со скоростью передачи данных 100 Гбит/c (ранее интеграция Omni-Path Fabric была выполнена в Xeon Phi).

В процессорах также реализована функция прямой поддержки накопителей NVM–SDD, которые подключаются напрямую по линии PCI-Express, что явно быстрее, чем в случае подсоединения по привычным интерфейсам SAS/SATA. Модуль Volume Management Device (VMD) абстрагирует и объединяет накопители NVM, что позволяет подключить большее их число. Это, кстати, уже привело к явной активизации поддержки быстрых накопителей NVM SDD в новых моделях серверов на базе Xeon Scalable. Так, серверы Dell PowerEdge R740xd и Lenovo ThinkSystem R650 способны использовать до 24 NVM-дисков, HPE ProLiant DL380 – до 20. Имеется в чипе и поддержка RAID – Intel VROC.

Теоретически все это вместе взятое дает возможность реализовать программно определяемое хранилище данных встроенными средствами базовой платформы. А с применением Omni-Path, по которому можно транслировать трафик NVM-накопителей, это и вовсе позволяет создавать системы, напрямую обращающиеся к накопителям вне сервера, только за счет встроенных средств процессора.

AMD EPYC

Говоря об актуальных серверных платформах, нельзя не упомянуть о новшествах компании AMD. Выпуск в 2017 г. процессоров EPYC (Naples), в рамках которого AMD удалось с первого раза обогнать Intel по числу процессорных ядер и потоков – 32/64, действительно оказался для индустрии неожиданным. В текущих модельных рядах серверов эти процессоры пока используются нечасто, но в их числе есть и очень популярные модели, например, HPE ProLiant DL385. Остальные ведущие вендоры и облачные провайдеры также готовы использовать новую платформу.

Уже имеются решения на этой базе в семействе Dell PowerEdge. Любопытно, что у бренда Dell в дополнение к двухсокетным здесь предлагаются первые в истории модели корпоративного класса с одним сокетом – PowerEdge R61415/R7415. Да, EPYC со своей непревзойденной многоядерностью, широченными каналами пропускания PCI-Express и объемами памяти оказываются сильны и в формате 1P.

С точки зрения многоядерности компания AMD, по придирчивому мнению критиков, несколько схитрила. Фактически 32-ядерный чип представляет собой не единый кристалл, а «склейку»: MCM-модуль (Milti-Chip Module) из четырех восьмиядерных модулей. Но такой подход, по заявлениям производителя, снижает стоимость разработки и выпуска, а следовательно, дает возможность предложить прекрасную цену. Цена EPYC, конечно, существенно ниже, чем старших 28-ядерников от Intel.

Первые тесты производительности говорят об уверенном лидерстве топового решения AMD в широком наборе задач. Да и в смысле простоты масштабируемости на следующем поколении такой конструктивный подход явно интересен. Причем все устроено гораздо проще, чем у Intel: есть двухпоточные ядра Zen, достаточно мощные решения в сравнении с прошлыми архитектурами AMD, выполняемые сегодня по техпроцессу 14 нм, и в целом соразмерные по тестам ядрам Core. До четырех ядер Zen объединяются в комплексы CPU (CCX) c общим для всех ядер кэшем L3 и индивидуальным L2 на 512 Kбайт. Два CCX объединяются на полупроводниковом кристалле под названием Zeppelin. Связывает их фирменная шина AMD Infinity Fabric. Там же находится единый контроллер памяти и корневой хаб PCI Express.

Infinity Fabric при этом вообще становится стержневым компонентом системы. Это универсальное решение, которое электротехнически совместимо с PCI Express. Кроме того, это настраиваемое решение: оно используется и как внешние линки системы ввода-вывода, и как канал межсокетного взаимодействия в двухсокетном сервере, и как канал межъядерного взаимодействия в составе Zeppelin.

Итак, каждый из четырех кристаллов Zeppelin в MCM-модуле имеет собственные ресурсы в виде кэш-памяти L3, двухканального контроллера ОЗУ и 32 линий PCI Express. В максимуме это дает 32-ядерный CPU, 64 Мбайт кэша L3, восьмиканальную подсистему памяти и поддержку целых 128 линий PCI Express.

Но тут есть хитрость: в двухсокетном варианте из 128 линий половина забирается на межсокетный обмен. В этой связи, кстати, понятно, почему на базе EPYC невозможны четырехсокетные системы – на процессорный интерконнект просто не остается линий, или их не останется на ввод-вывод. Так что на рынке крупных SMP-комплексов стандартной архитектуры монополия Intel остается незыблемой.

Объем ОЗУ в решении AMD составляет по 2 Тбайт на сокет. Правда, латентность памяти оказывается неравномерной для «своего» чипа Zeppelin и для соседнего. Ведь контроллер для них не общий – он у каждого свой.

Infinity Fabric занимает место ключевой инновации AMD, реализованной в EPYC. Эта шина за счет своей абсолютной универсальности позволяет коренным образом снизить производственные издержки при выпуске многоядерных сборок и добиться высокого уровня масштабируемости платформы.

Это же обстоятельство сильно упрощает жизнь партнерам – производителям системных плат и серверов. Ведь для взаимодействия с процессорами EPYC они должны иметь дело только с одной универсальной и перенастраиваемой шиной данных.

По материалам статьи «Масштабы ширятся», «Бестселлеры IT-рынка», №1’2018.

Вернуться на главную страницу обзора «Серверный рынок выходит из кризиса»