Динамическое управление потребляемой мощностью серверов в ЦОД
Корпорация Intel предложила новый продукт Intel Data Center Manager (DCM), который предназначен для сокращения мощности, потребляемой серверами в центрах обработки данных (ЦОД). Напомним, что вместе с выпуском семейства микропроцессоров Intel Xeon 5500 появилось и новое поколение технологии управления энергопотреблением – Intel Intelligent Power Node Manager, особенно эффективное для ЦОД. Как известно, многие проблемы ИТ-менеджеров в дата-центрах связаны с распределением требуемой мощности и охлаждением. Обычно предполагается худший сценарий, поскольку трудно предсказать, когда энергопотребление сервера станет максимальным. Ведь когда это случается, часто не остается никаких способов исправить ситуацию. Эксперты говорят, что это похоже на езду с завязанными глазами и надеждой на хороший исход. Понятно, что такая езда будет наиболее безопасной, когда дорога широка, насколько это возможно. Однако выделение необоснованно большой части из бюджета мощности (over-allocation) ведет к ее недостаточной загрузке.
Проблема распределения мощности остро встает перед компаниями, которые арендуют у провайдера услуг ЦОД серверные стойки с выделенным лимитом мощности на каждую. С одной стороны, такие компании-арендаторы хотят избежать незаполненности (under-populate) стоек, чтобы не платить больше за одно и то же количество серверов. С другой стороны, переполненность (over-populate) стоек может привести к превышению выделенного лимита мощности на стойку. Суммируя все это, можно выделить следующие проблемы управления мощностью.
Чрезмерное (пере-) резервирование мощности
Мощность, выделяемая для серверов, как правило, не совпадает с их реальным энергопотреблением. Обычно резервируемая мощность оценивается по худшему сценарию, причем ее количественное значение берется из паспортных данных сервера, указанных на табличке с маркой фирмы-изготовителя. Такое статическое распределение бюджета не позволяет максимально задействовать имеющиеся ресурсы мощности и ведет к неэффективному использованию пространства в стойке.
Незаполненность серверных стоек
Прямым результатом перерезервирования мощности становятся пустые установочные места в стойках. Когда бизнесу потребуется больше вычислительных ресурсов, приходится платить за дополнительные стойки. Если же невозможно арендовать стойки в том же дата-центре (например, из-за отсутствия свободного места), приходится искать другие решения, часто связанные с неоправданным увеличением операционных расходов.
Отсутствие планирования вместимости
Не существует эффективных способов предсказать и динамически оптимизировать мощность и производительность на уровне стойки. Для того чтобы улучшить использование мощности, в дата-центрах требуется отслеживать реальные энергозатраты на электропитание и охлаждение и динамически подстраивать рабочую нагрузку и распределение мощности для оптимальной производительности на уровнях стойки и всего ЦОД.
Отметим, что средства управления потребляемой мощностью Intel Intelligent Power Node Manager (далее Power Node Manager) встроены в новый серверный набор микросхем Intel. Как известно, процессоры могут регулировать свое энергопотребление благодаря манипуляции состояниями (P- и T-state), которые характеризуются вполне определенными частотами работы и напряжениями питания ядра микросхемы. Power Node Manager работает совместно со средствами BIOS и управления питанием ОС (OS Power Management), динамически настраивая энергопотребление платформы на достижение максимальной производительности для одного узла. Power Node Manager характеризуется следующими особенностями.
Dynamic Power Monitoring. Измерение действительного потребления мощности серверной платформы выполняется с ошибкой в пределах +/-10%. Power Node Manager собирает информацию через интерфейс PSMI (Power Supply Management Interface), которым снабжены источники питания. Информация об энергопотреблении в реальном масштабе времени передается через интерфейс IPMI (Intelligent Platform Management Interface).
Platform Power Capping. Потребляемая платформой мощность устанавливается на определенный бюджетом уровень, при этом поддерживается максимальная производительность, возможная на данном уровне. Power Node Manager получает политику управления питания от внешней консоли управления через интерфейс IPMI и обеспечивает мощность на выбранном уровне за счет динамического подбора состояний (P-state) процессора.
Power Threshold Alerting. Power Node Manager контролирует потребляемую платформой мощность, сравнивая ее с бюджетным уровнем. Если этот уровень не может быть достигнут, Power Node Manager посылает сигнал тревоги на управляющую консоль.
ПО промежуточного уровня (middleware) Intel Data Center Manager (DCM) – это программная технология, которая обеспечивает контроль мощности и температуры, а также управление серверами, стойками и группами серверов в дата-центрах. DCM базируется на Power Node Manager и существующих управляющих консолях для эффективного энергопотребления. Это ПО реализует групповой уровень политик, которые агрегируют данные от узлов в информационные сообщения по одной стойке или даже всему дата-центру, что позволяет отслеживать изменения параметров и характеристик, а также получать сигналы тревоги. Таким образом, например, можно лимитировать энергопотребление неактивных серверов, одновременно увеличив расходы энергии для работающих систем. ИТ-менеджер может установить групповой уровень политик на предел потребления, причем DCM позволяет увеличить плотность оборудования в стойках, управлять пиковым потреблением, а также может помочь при выборе оптимальной инфраструктуры ЦОД.
ПО DCM реализовано в виде SDK (Software Development Kit), созданного как подключаемый программный модуль (plug-in) для консолей управления. К ключевым особенностям DCM относятся:
- групповой уровень контроля и сбора данных об энергопотреблении и температуре;
- запросы к данным по трендам в течение одного года;
- политики с управляемым уровнем ограничения на мощность;
- определенные пользователем группа уровня тревоги энергопотребления и уведомлений;
- поддержка распределенной архитектуры (группа серверов по разным стойкам).
Апробацию своего нового продукта DCM корпорация Intel провела совместно с китайской компанией Baidu.com (известная поисковая машина www.baidu.com ), которая арендует серверные стойки в дата-центре China Telecom. Лимит для каждой стойки установлен на уровне 2,2 КВт (10 А). В тестовой конфигурации использовались двухпроцессорные серверы на базе микросхем Xeon 5560. Как известно, данные процессоры имеют 11 состояний ACPI P-state, что позволяет варьировать тактовую частоту в диапазоне 1,6-2,8 ГГц. Дополнительные состояния P-state (в предыдущем семействе процессоров было доступно только три состояния) расширяют динамический диапазон и позволяют более точно управлять потребляемой мощностью. Так, на предыдущем поколении процессоров Intel (Bensley) удавалось снизить потребление на 40 Вт, в то время как новые микросхемы (Nehalem) позволили увеличить это значение до 70 Вт. На уровне энергопотребления стоек, при выборе оптимальной политики управления, можно сэкономить до 20% дополнительного пространства. Используя Power Node Manager и Data Center Manager, удалось увеличить плотность размещения с пяти до семи-восьми серверов на стойку (экономия более 60%).