Автоматизированная система диспетчеризации и управления в центрах обработки данных
Обзор автоматизированной системы диспетчеризации и управления (АСДУ) в применении к современным центрам обработки данных: архитектура решения, возможности, преимущества и особенности эксплуатации.
Современный мир все больше зависит от информационных систем. Не секрет, что для успеха в бизнесе необходимы высокоэффективные ИТ-решения, которые, с одной стороны, в полной мере удовлетворяли бы потребности бизнеса, а с другой — не становились бы для компаний тяжким грузом в виде увеличивающихся расходов на ИТ и их поддержку. Современные центры обработки данных (ЦОД) — это экономически оправданные решения, консолидирующие ИТ-ресурсы организации и способные значительно сократить общие расходы на ИТ за счет внедрения централизованной модели вычислений. Однако постоянное усложнение ИТ-инфраструктуры, увеличение энергопотребления и тепловыделения в ЦОД накладывают на работу обслуживающих инженерных подсистем ряд дополнительных требований: очень высокая надежность, управляемость, безопасность, адаптивность к изменениям бизнеса.
Надежности подобных систем и упреждению будущих проблем сегодня уделяется очень большое внимание. Круглосуточный мониторинг, комплексный анализ параметров оборудования, предупреждение отказов и минимальное время реакции — это важнейшие требования к диспетчерским службам, контролирующим инженерные подсистемы ЦОД, а работа персонала в подобных службах становится все более ответственной. Стоит отметить, что для повседневного контроля инженерных подсистем нужны специалисты в разных областях, таких, как электрика, вентиляция и кондиционирование, обслуживание различного специального оборудования.
Автоматизированная система диспетчериз ации и управления (АСДУ) представляет собой целостную платформу для управления всеми инженерными подсистемами и создается как многоуровневая автоматическая система, обеспечивающая контроль состояния и управление технологическим оборудованием ЦОД с выводом данных на экраны автоматизированных рабочих мест операторов. АСДУ ведет непрерывный мониторинг инженерных систем с регистрацией основных параметров и обеспечивает контроль и управление инженерным комплексом из единого диспетчерского центра.
Организация диспетчерского центра на основе решения АСДУ позволяет внедрить новые стандарты качества в управление эксплутационно-обеспечивающим оборудованием, повысить эксплуатационную готовность ЦОД, снизить текущие затраты на управление инженерными системами, обеспечить документирование и протоколирование сбоев, создать базу для оперативного устранения аварийных ситуаций.
Архитектура решения
Современная АСДУ имеет трехуровневую архитектуру (рис. 1). Нижний уровень образуют периферийные устройства и инженерное оборудование, формирующие первичные данные. Второй уровень — контроллеры, принимающие и обрабатывающие информацию, и сеть передачи данных. Верхний уровень — это ПО, предоставляющее средства визуализации, архивации, публикации поступающих данных. На рабочие места диспетчеров (АРМ) поступает структурированная консолидированная информация в нужном формате. Аналитический модуль постоянно отслеживает рабочие параметры систем на предмет отклонения от нормы и способен автоматически запускать процедуры согласно заложенным инструкциям, например, подать сигнал тревоги или запустить аварийный дизель-генератор. Важная задача аналитического модуля — заблаговременные предупреждения о грядущих отказах.
Собранные данные можно:
В состав решения может входить система видеонаблюдения, одновременно с сигналом тревоги выводящая картинку с аварийной подсистемой на монитор оператора. Как правило, в системе предусмотрен Web-интерфейс, кроме того, ее можно интегрировать с системами мониторинга ИТ-инфраструктуры ЦОД.
При использовании в ЦОД комплексных систем управления, например IBM Tivoli или HP OpenView, администраторы получают контроль над информационными бизнес-сервисами и связанными с ними программными и аппаратными ресурсами ЦОД. АСДУ может быть интегрирована с подобными решениями, и тогда инженерные подсистемы будут иметь непосредственную связь с системами более высокого уровня, что повысит эксплуатационную готовность ЦОД.
Регистрация и обработка событий
Инженерные системы ЦОД состоят из множества взаимоувязанного оборудования, поэтому при наступлении какого-либо тревожного события бывает трудно определить, где конкретно возникла проблема. Для примера возьмем проблему в контуре питания, между распределительным щитом и активным сетевым оборудованием (рис. 2). Система локализует проблему, определяет уровень возможных последствий и отображает информацию о конкретной системе в окне тревог. Экранная форма со схемой системы показывает отношения между взаимосвязанным оборудованием и возможными последствиями неполадок в отдельных компонентах.
АСДУ централизованно фиксирует событие в базе данных и оповещает диспетчера о возникновении проблемы и необходимости ее разрешения. Далее система определяет уровень серьезности происшествия и присваивает событию определенный приоритет. Приоритет необходим, чтобы повысить эффективность реакции персонала на происшествие. Например, если сработавшая сигнализация говорит о необходимости замены фильтра системы кондиционирования воздуха, оператор должен понимать, в какие сроки и с каким приоритетом разрешить сложившуюся ситуацию.
Система выводит сообщения о выходе отслеживаемых параметров за установленные ранее пределы, а также сообщения о критическом времени наработки эксплуатируемого инженерного оборудования. Например, это могут быть данные о состоянии аккумуляторных батарей, температуре и влажности в стойках. Информация представляется в доступном для администраторов и диспетчеров и легко читаемом виде.
Одна из важнейших функций АСДУ — своевременное оповещение о возникших ситуациях всех ответственных лиц, обслуживающих подсистемы ЦОД. Система имеет функции оперативного оповещения диспетчеров, администраторов и руководящих лиц объекта по электронной почте или посредством сообщений SMS, а также интегрируется с другими доступными способами сигнализации в соответствии с установленным регламентом.
Эксплуатационная готовность и безопасность
Алгоритмы и регламенты ответных действий на произошедшее событие программируются в АСДУ, и от правильности настройки подобных регламентов напрямую зависит эксплуатационная готовность. Следует определить и конкретных лиц, выполняющих то или иное действие (управление оборудованием, подтверждение тревожного сообщения и т. д.). Для разграничения ответственности за обслуживание разных систем АСДУ имеет возможность управлять полномочиями диспетчеров. Автоматизированная система предоставляет функции разграничения доступа различных групп диспетчеров с привязкой к определенным задачам или контролируемым системам. В противном случае, если тревожные сигналы и сообщения доставляются абстрактному «диспетчеру» без привязки к конкретному человеку, сложно определить ответственного за реакцию на ту или иную нештатную ситуацию.
Ниже мы кратко охарактеризуем основные контролируемые подсистемы и параметры мониторинга АСДУ.
Мониторинг и фиксация критических изменений параметров окружающей среды ЦОД. Отказ оборудования может быть следствием не только слишком высокой температуры, но и быстрого ее изменения. Система отслеживает температуру и влажность на уровне стоек с оборудованием и оповещает диспетчера о том, что зафиксированы потенциально опасные значения температуры и влажности. Хронологические данные и параметры окружающей среды могут выводиться в виде легко читаемых графиков (рис. 3).
Мониторинг и фиксация изменений в потреблении электропитания активным оборудованием. По мере появления в ЦОД нового оборудования потребности в электропитании и охлаждении могут превзойти имеющиеся ресурсы, результатом чего станут перебои в работе. В частности, инженерные системы ЦОД требуют дополнительного внимания по мере старения батарей ИБП. Уровень старения батарей зависит от интенсивности их использования и температуры. АСДУ отслеживает потребление тока для каждой ветви цепи или стойки и оповещает ответственных лиц о ситуациях, грозящих возникновением перегрузки. Она также информирует их обо всех ИБП, у которых время автономной работы оказывается меньше минимума или у которых превышается пороговое значение нагрузки.
Отслеживание электропитания оборудования. Неисправность оборудования или линий подачи электропитания, а также некорректные действия обслуживающего персонала могут привести к обесточиванию оборудования. АСДУ оперативно оповещает диспетчера о наличии или отсутствии питающего напряжения на потребителях.
Отслеживание качественных и количественных характеристик электропитания. Некачественное электропитание приводит к выходу из строя или преждевременному износу оборудования. Изменение нагрузки на систему электропитания (включение/выключение климатического оборудования, добавление оборудования ЦОД и т. д.) может повлечь за собой ситуацию, когда система бесперебойного электропитания не в состоянии обеспечить резервирование. АСДУ предоставляет обслуживающему персоналу централизованную информацию о качестве электропитания и распределении нагрузки по ЦОД в режиме реального времени, а также сохраняет эту информацию в базе данных для дальнейшего выяснения причин отказа оборудования.
Определение надежности электропитания. Оперативное отслеживание состояния оборудования, которое обеспечивает гарантированное и бесперебойное электропитание (ИБП, ДГУ), невозможно без централизованного сбора и отображения информации с этих устройств. АСДУ предоставляет диспетчеру централизованную информацию о состоянии обеспечивающего оборудования.
Обеспечение температурного режима работы оборудования. Климатический режим ЦОД может нарушаться из-за неправильных режимов работы климатического оборудования. Из-за неравномерного распределения оборудования в ЦОД иногда возникают зоны локального перегрева, что может потребовать изменений в режимах работы климатического оборудования. Обслуживающий персонал не всегда замечает временный выход температуры или влажности за пределы нормы, что приведет к проблемам при определении причин сбоев в работе активного оборудования. Кроме того, климатический режим ЦОД может нарушаться из-за неправильных режимов работы или аварий на климатическом оборудовании. АСДУ отслеживает температуру и влажность в телекоммуникационных стойках (рис. 4) и оповещает диспетчера о том, что они достигли потенциально опасных значений, а также сохраняет эту информацию в БД и выдает ее в удобном для последующего анализа виде. Система предоставляет диспетчеру интерфейс для изменения режимов работы климатического оборудования и оперативно оповещает ответственных о сбоях в его работе (рис. 5).
На АСДУ также возложены функции минимизации последствий пожара в ЦОД. При возникновении пожара несвоевременное оповещение персонала, а также работа кондиционеров и несогласованность работы других подсистем в ЦОД может осложнить работу системы пожаротушения и снизить ее эффективность. АСДУ оповещает диспетчера о срабатывании пожарной сигнализации и станции пожаротушения, а также имеет возможность автоматически отключить кондиционеры и вентиляцию. После срабатывания системы пожаротушения необходимо определять качество воздуха в помещениях и выводить эту информацию на АРМ диспетчера.
* * *
Определение и отслеживание показателей готовности ЦОД — сложная и неоднозначная задача. АСДУ выступает здесь как средство интеграции всех инженерных и технологических подсистем ЦОД в целостную и управляемую систему. Аналитическая часть АСДУ предоставляет инструментарий для определения причин простоев и планирования уровня избыточности инженерных систем.