Архитектурные изменения в процессорах Intel

--> Дата: Авг 23, 2021 70

Компания Intel в рамках мероприятия Intel Architecture Day 2021 представила две новые микроархитектуры x86-ядер, первую производительную гибридную архитектуру Intel под кодовым названием Alder Lake с интеллектуальным планировщиком рабочих нагрузок Intel Thread Director, а также процессоры Intel Xeon Scalable следующего поколения для дата-центров с кодовым названием Sapphire Rapids. Были также представлены инфраструктурные процессоры (Infrastructure Processing Units, IPU), новые архитектуры графических процессоров, включая микроархитектуры Xe HPG и Xe HPC, и системы-на-кристалле Ponte Vecchio и Alchemist. Эти новые архитектуры будут использоваться в будущих высокопроизводительных продуктах и станут основой для инноваций Intel.

Новая микроархитектура ядра Efficient, ранее представленная Intel с кодовым названием Gracemont, разработана для энергоэффективной производительности и оптимальной разгрузки фоновых задач в современных режимах многозадачности. Это самая энергоэффективная x86-микроархитектура Intel, занимающая немного площади на кристалле и позволяющая многопоточным приложениям эффективно распределяться по ядрам. E-ядро работает в широком диапазоне частот и экономит энергию за счет пониженного напряжения питания, обладая при этом резервом для наращивания частоты и увеличения производительности под более тяжелыми нагрузками.

Для приоритизации нагрузок без перерасхода процессорной мощности E-ядро напрямую повышает производительность с помощью функций, увеличивающих число инструкций на такт, таких как:

кэш подсистемы предсказания ветвлений на 5 тысяч записей для более точного результата;
64-килобайтный кэш инструкций, позволяющий обрабатывать больше кода и экономить ресурсы подсистемы за счет более редких обращений к внешней памяти;
первый декодер длины инструкций Intel, который делает предварительную обработку данных до запроса;
кластеризованный внеочередной (out-of-order) декодер, который позволяет декодировать до 6 инструкций за такт с сохранением уровня энергоэффективности;
расширенный исполнительный модуль с 5 регистрами переназначения и 8 регистрами завершения инструкций, буфером на 256 внеочередных инструкций и 17 исполнительными портами;
функции безопасности, включая аппаратную защиту от кибератак Intel Control-Flow Enforcement Technology (CET) и защиту от перенаправлений Intel Virtualization Technology;
расширение системы команд AVX наряду с новыми дополнениями для поддержки целочисленных операций ИИ.

По сравнению с наиболее распространенной процессорной микроархитектурой Skylake ядро Efficient в однопоточном режиме обеспечивает на 40% большую производительность при том же уровне энергопотребления, или сравнимую производительность при снижении энергопотребления на 40%. Четыре физических ядра Efficient обеспечивают на 80% больше производительности при меньшем энергопотреблении, нежели четыре потока двух физических ядер Skylake, или такую же производительность при энергопотреблении, уменьшенном на 80%.

Новая микроархитектура ядра Performance, представленная Intel ранее с кодовым названием Golden Cove, дает снижение задержек и повышение производительности в однопоточных приложениях. Увеличение объема кода и данных приложений требует больше ресурсов и большей пропускной способности. Новая процессорная микроархитектура Performance значительно повышает общую производительность и обеспечивает лучшую поддержку приложений с большим объемом кода.

Ядро Performance – это самое производительное процессорное ядро из созданных Intel, в котором удалось добиться снижения задержек и повышения производительности в однопоточных приложениях благодаря следующим факторам:

росту производительности до 19% при тестах на большом количестве популярных приложений по сравнению с архитектурой Intel Core 11-го поколения (Cypress Cove) при сравнимой тактовой частоте;
упору на параллелизм и наращиванию исполнительного параллелизма;
расширениям Intel Advanced Matrix – встроенным средствам ускорения ИИ нового поколения, предназначенным для инференса глубокого обучения и повышения эффективности обучения. Они включают выделенные аппаратные модули и новую архитектуру набора инструкций для значительного ускорения операций перемножения матриц;
оптимизации работы с приложениями, имеющими большой объем данных и кода, в том числе c точки зрения уменьшения задержек.

Клиентская архитектура Intel следующего поколения с рабочим названием Alder Lake представляет собой высокопроизводительную гибридную архитектуру, в которой впервые интегрированы два типа ядер – Performance и Efficient – для обеспечения высокого уровня производительности на любых типах задач. Alder Lake производится по технологическому процессу Intel 7, поддерживает новейшие типы памяти и быстрый ввод-вывод.

Обеспечиваемый Alder Lake высокий уровень производительности будет поддерживаться всеми типами клиентских устройств – от ультрапортативных ноутбуков до систем для энтузиастов и коммерческих настольных ПК – благодаря использованию единой высокомасштабируемой процессорной архитектуры в трех ключевых сегментах:

высокопроизводительные настольные ПК с процессорным сокетом и чипсетом, энергоэффективностью, современной памятью и системой ввода-вывода;
высокопроизводительные мобильные BGA-корпуса с поддержкой улучшенного графического ядра Xe и подключением Thunderbolt 4;
тонкие низкопотребляющие корпуса с высокой плотностью размещения компонентов и оптимизированными портами ввода-вывода и питания.

Новая микроархитектура дискретной графики Xe HPG разработана для игровых систем и решения творческих задач. Она используется в семействе Alchemist, первые соответствующие продукты появятся на рынке в I квартале 2022 г. под торговой маркой Arc. Микроархитектура Xe HPG базируется на новом ядре Xe для вычислительных систем с возможностью масштабирования.

План выпуска клиентских графических решений включает решение Alchemist, ранее известное как DG2, а также последующих Battlemage, Celestial и Druid. Во время презентации Intel представила подробности микроархитектуры и продемонстрировала работу опытных образцов Alchemist на примере реального геймплея, теста работоспособности с игровым движком Unreal Engine 5 и возможностей новой технологии суперсэмплинга под названием XeSS на основе нейронных сетей.

Системы-на-кристалле Alchemist на базе микроархитектуры Xe HPG спроектированы для обеспечения высокой масштабируемости и вычислительной эффективности со следующими ключевыми возможностями:

до 8 слоев рендеринга с фиксированной функцией для DirectX 12 Ultimate;
новые ядра Xe с 16 векторными и 16 матричными движками (так называемыми XMX – Xe Matrix eXtensions), кэшем и общей локальной памятью;
новые модули трассировки лучей с поддержкой технологий DirectX Raytracing (DXR) и Vulkan Ray Tracing;
увеличение частоты в 1,5 раза и соотношения производительности на ватт в 1,5 раза по сравнению с микроархитектурой Xe LP за счет сочетания новой архитектуры, логического построения, схемотехники, технологии производства и оптимизации ПО;
производство с нормами технологического процесса TSMC N6.

Процессор Sapphire Rapids обеспечивает существенный прирост вычислительной мощности в ЦОД с динамичными и постоянно растущими нагрузками. Процессор оптимизирован для высокой производительности рабочих нагрузок с такими концепциями эластичных вычислений как облако, микросервисы и ИИ.

В основе Sapphire Rapids лежит модульная архитектура на базе технологии корпусирования Intel EMIB для обеспечения масштабируемости при сохранении преимуществ монолитного процессорного интерфейса. Sapphire Rapids обеспечивает единую сбалансированную архитектуру Unified Memory Access, где каждый вычислительный поток имеет полный доступ ко всем ресурсам всех модулей, включая кэши, память и ввод-вывод. В итоге достигаются низкие задержки и высокая пропускная способность между всеми модулями микросхемы. Процессор Sapphire Rapids производится по технологическому процессу Intel 7 и включает в себя новую микроархитектуру процессорного ядра Intel Performance.

Дизайн Sapphire Rapids включает в себя широкий набор ускорителей для дата-центров, включая новую архитектуру набора команд и встроенные IP-блоки для увеличения производительности в самом широком диапазоне пользовательских нагрузок и сценариев использования.

Новые представители семейства инфраструктурных процессоров Intel предназначены для решения ряда сложных проблем в разнородных и рассредоточенных ЦОД. Mount Evans – это первый IPU компании в формате специализированной микросхемы (ASIC), он спроектирован и разработан вместе с ведущим поставщиком облачных услуг и объединил в себе опыт нескольких поколений программируемых матриц SmartNIC. Oak Springs Canyon – это платформа IPU на базе Intel Xeon-D и программируемых матриц (FPGA) Intel Agilex.

Платформа Intel N6000 Acceleration Development Platform с кодовым названием Arrow Creek представляет собой адаптер SmartNIC, созданный для совместного использования с серверами на базе процессоров Xeon. В числе ее особенностей – использование мощной и производительной программируемой матрицы Intel Agilex FPGA и поддержка нескольких инфраструктурных рабочих нагрузок, позволяющих поставщикам телеком-услуг предлагать гибкие ускоренные приложения, такие как Juniper Contrail, OVS и SRv6, с упором на успех Intel PAC-N3000.

Решение Ponte Vecchio, выполненное на базе микроархитектуры Xe HPC, обеспечивает лучшие в отрасли показатели операций с плавающей запятой в секунду (FLOPs) и вычислительной плотности. Оно предназначено для ускорения рабочих нагрузок ИИ, высокопроизводительных вычислений (HPC) и расширенной аналитики. Intel рассказала об особенностях микроархитектуры Xe HPC, в том числе о 8 векторных и матричных движках (XMX – Xe Matrix eXtensions) на каждое ядро Xe; данные о слоях, стеках и модулях, включая технологические нормы производства модулей Compute, Base и Xe Link. Микросхемы степпинга A0 обеспечивают производительность более 45 TFLOPS FP32, пропускную способность интерфейса памяти более 5 Тбайт/с и пропускную способность подключения более 2 Тбайт/с. Intel также продемонстрировала производительность инференса ResNet на уровне более 43 тысяч изображений в секунду и обучения ResNet на уровне более 3400 изображений в секунду. Оба показателя являются заявкой на ведущие позиции по производительности.

Решение Ponte Vecchio проходит стадию валидации и уже поставляется в ограниченных пробных количествах заказчикам. Оно будет выпущено в 2022 г. для рынков HPC и ИИ.