Byte/RE ИТ-издание

Управление критичными приложениями в OpenView

Андрей Ездаков

Локальные и глобальные сети передачи данных сегодня составляют обязательную часть инфраструктуры любого бизнеса. Нарушения в их работе или в функционировании циркулирующих в них критических приложений приводят к остановке деловых процессов, простоям и, как следствие, финансовым, материальным и моральным потерям. Неудивительно, что ведущие поставщики ИТ-решений уделяют этим проблемам серьезное внимание.

Начало пути

Разработчики из Hewlett-Packard (http://www.hp.com)
уже в 1980-х годах осознали, что информационные технологии имеют ключевое значение
для обеспечения деятельности современных предприятий самого различного уровня.
Примерно пятнадцать лет назад руководство корпорации, поставляющей в основном
оборудование, приняло решение о необходимости диверсификации бизнеса. Потребности
текущего момента побудили HP организовать подразделение, вплотную занявшееся
разработкой программных продуктов. Причем речь шла не только о создании утилит
и драйверов для многочисленных и разнообразных периферийных устройств, выпускаемых
самой компанией, а о разработке ПО для управления сложной информационной инфраструктурой,
объединенной в локальную сеть.

В результате вскоре был создан первый продукт из семейства OpenView — менеджер сетей Network Node Manager (NNM). Эта программа обеспечивает управление информационной инфраструктурой предприятия на уровне сети (рис. 1).

Fig.1
Рис. 1. Network Node Manager в действии.


Этот продукт — классический образец платформы SNMP. В число основных задач, решаемых NNM, входят автоматическое обнаружение сетевых объектов, определение топологии сети, построение ее графических карт, регулярный опрос устройств для определения их состояния, прием SNMP-сообщений (traps), оповещение операторов о проблемах (alarms), сбор статистических данных о работе сети и генерация отчетов. Продукт универсален, поскольку не привязан к конкретным устройствам производителей. Открытый интерфейс прикладного программирования (API) и инструментальный набор разработчика (SDK) открывают широкие возможности для создания специализированных программ управления конкретными объектами, которые будут работать поверх платформы, используя ее функциональность. На рынке продаются сотни специализированных программ управления, разработанные производителями оборудования и работающие поверх NNM.

Это ПО может работать на серверах под управлением ОС Microsoft Windows NT/2000, HP-UX и Sun Solaris. Чуть более года назад HP предложила в дополнение к NNM модуль NNM Extended Topology (NNM ET). Его основное предназначение — определение и визуализация сложных топологий в LAN/WAN (ячеистые топологии, транковые связи, виртуальные сети VLAN, предоставление динамически обновляемых карт Dynamic Views, доступных через браузер, отображение топологий протоколов, работающих поверх IP). Активное развитие модуля ET свидетельствует о намерении HP со временем сделать Dynamic Views основным интерфейсом NNM.

Сетевое управление связано с большим числом приходящих сообщений о событиях в сети (traps, недоступность устройств и т. д.). Далеко не все эти сообщения действительно полезны оператору — многие даже мешают ему найти в общей массе первопричину проблемы. В программе NNM предусмотрена специальная служба корреляции событий Event Correlation Services (ECS), которая анализирует поступающие сообщения и позволяет не только фильтровать их в соответствии с заданной логикой, но и делать полезные выводы. Вместе с NNM поставляется несколько готовых "цепей корреляции" (модулей или логик), которые можно по желанию подстраивать, включать или выключать. Можно создавать и свои собственные цепи корреляции, но для этого потребуется купить специальный продукт ECS Designer.

В последней версии NNM (6.4) поставляется семь готовых цепей:

  1. Connector Down (разрыв соединения) — подавляет сообщения о недоступности
    устройств, следующих за неисправным в цепочке сетевого соединения.
  2. Frame Relay — позволяет анализировать отказ виртуального соединения (PVC)
    и определять, вызван ли отказ оконечным оборудованием клиента или это проблема
    в сети Frame Relay у провайдера.
  3. Scheduled Maintenance (запланированное обслуживание) — удаляет из списка
    события, связанные с отключением компонента от сети для проведения на нем
    плановых профилактических или иных работ.
  4. RepeatedEvent (повторяющееся событие) — в заданном интервале времени снижает
    число повторяющихся сообщений, таких, как сбой SNMP-аутентификации.
  5. PairWise (парные события) — подавляет дублирующиеся события, возникающие
    в парах (например, отключение и включение узла).
  6. MgXServerDown — ManageX Server Down — цепь, применяемая для обеспечения
    совместимости при интеграции с продуктом ManageX.
  7. Composer — содержит около десятка готовых корреляторов для различных событий
    и позволяет быстро и просто создавать в графической среде собственные корреляторы.
    Одно из самых заметных усовершенствований в версии NNM 6.4. Composer можно
    рассматривать как бесплатный облегченный вариант инструмента ECS Designer.

NNM позволяет планировать и организовывать резервное копирование наиболее важной информации о сетевом управлении, не прерывая выполнения основных функций контроля. Использование NNM совместно с реляционными СУБД (например, Oracle) позволяет повысить эффективность сбора данных о качестве работы, производительности, доступности и т. п. В этом случае данные, собранные NNM, экспортируются в СУБД и становятся доступны для анализа ее средствами.

Кроме того, нынешние версии NNM предоставляют администраторам автоматизированной
системы и ее пользователям множество различных готовых отчетов, доступных через
Web. При желании можно создавать собственные отчеты и встраивать их в NNM.

OpenView Service Desk в Альфа-банке

Один из крупнейших коммерческих банков России, Альфа-банк, создал разветвленную
сеть из более чем 80 филиалов в нашей стране и за рубежом. В процессе
реструктуризации его бизнеса были выявлены проблемы, связанные с работой
ИТ-службы: не существовало единых стандартов ее функционирования, подразделения
службы были разрознены, отсутствовала консолидированная политика взаимодействия
отдельных функциональных групп. Назрела необходимость пересмотра места
и роли ИТ-службы как одного из равноправных бизнес-подразделений банка,
и в 1999 г. было принято решение о ее реформировании.

Работы проводились в соответствии с методологией ITSM (Information Technologies
Service Management) компании Hewlett-Packard силами ее консалтингового
подразделения. На основе предпроектного обследования была разработана
программа действий. В первую очередь был организован процесс управления
инцидентами. Параллельно велась наладка управления конфигурациями и изменениями.

В результате внедрения системы OpenView Service Desk существенно улучшилось
обслуживание пользователей и, как следствие, в деловых структурах банка
уменьшилось время простоев, связанных с неисправностями информационно-технологической
инфраструктуры. Деятельность ИТ-службы стала прозрачной, измеряемой и
предсказуемой. Статистика работы подтвердила эффективность выбранного
решения.

"Качественные и стабильные ИТ-услуги позволяют существенно снизить операционные
риски, повысить рыночную стоимость и капитализацию банка, увеличить его
прибыльность", — утверждает директор по информационным технологиям Альфа-банка
Мартин Пилецки.

Переоценка ценностей

Деловые круги в последние годы изменили свое отношение к информационным технологиям — если раньше корпоративные ИТ-службы в основном отвечали за работоспособность аппаратного обеспечения (ПК, серверов, коммуникационного оборудования и линий связи), то теперь на первое место выходит требование непрерывной доступности необходимых сервисов. Эффективность работы ИТ-подразделений оценивается по качеству работы программных приложений, своевременности предоставления пользователям нужных им услуг.

В соответствии с этими тенденциями HP значительно расширила ассортимент продуктов, входящих в семейство OpenView. Акцент постепенно переносится с управления сетью на управление серверами, операционными системами и приложениями, функционирующими в информационной сети предприятия. Новые компоненты OpenView распространяют возможности пакета на сферу управления ИТ-услугами.

Одним из новых компонентов пакета стала программа OpenView Operations. Она предоставляет администратору системы необходимые инструменты для централизованного управления всей информационной инфраструктурой предприятия, обеспечивает его средствами постоянного контроля за огромным количеством событий, ежедневно происходящих в сетевых устройствах, компьютерах, базах данных и приложениях. Реагируя на все эти события, OpenView Operations обрабатывает поступающую информацию, фильтрует ее и устанавливает взаимосвязи между отдельными сообщениями. Программа, работающая под управлением Microsoft Windows 2000/NT, HP-UX, Sun Solaris, интегрируется с NNM. При этом управляемые узлы могут работать в среде практически любой известной операционной системы.

Такой комплекс позволяет автоматически искать и определять новые аппаратные средства в сети, внося коррективы в исходную конфигурацию и развертывая необходимые программные компоненты и политики. По результатам этого поиска OpenView Operations обновляет графическое представление существующих сервисов, доступных в корпоративной информационной системе (рис. 2). Полученное изображение позволяет определить наиболее важные службы и соотнести их с соответствующими аппаратными компонентами системы. При этом статус связей между различными сервисами отмечается цветом в режиме реального времени.

Fig.2
Рис. 2. Наглядное отображение состояния сервисов, полученное с помощью OpenView VantagePoint.


Предложенный подход к управлению, в частности, дает возможность при возникновении неисправности немедленно определить степень ее влияния на доступность и качество услуг, предоставляемых пользователям, — ведь далеко не каждый сбой в ИТ-инфраструктуре непосредственно сказывается на поддержке бизнес-процессов. Таким способом OpenView Operations позволяет определить степень важности возникшей проблемы.

Кроме того, программа осуществляет мониторинг собранных данных о событиях, происходящих в системе, для выявления нестандартных ситуаций. Например, при загрузке центрального процессора более чем на 75%, превышении порогового значения времени отклика приложения, высокой степени заполненности устройств хранения информации или в иных подобных случаях интеллектуальные агенты OpenView Operations заранее предсказывают возможность перегрузки системы. Этот инструмент дает администратору информацию о возникновении узких мест и рекомендации касательно подключения к информационной сети дополнительного оборудования.

Настройки системы осуществляются с помощью специального графического редактора. Вводимые правила, называемые политиками, определяют порядок решения задач, связанных с управлением системой. Политики устанавливают статус сервисов и последовательность действий системы при возникновении аварийных ситуаций.

Механизм динамической подстройки, реализованный в OpenView Operations, позволяет изменять интенсивность сбора данных в зависимости от статуса управляемой службы. Автономные интеллектуальные агенты могут самостоятельно, без вмешательства ИТ-персонала запустить необходимые инструменты для контроля и управления отдельными сервисами. Функция управления версиями упрощает изменение существующих политик.

Информационная безопасность

Одна из первостепенных задач в современных автоматизированных системах — обеспечение защиты корпоративной информации. При этом речь идет как о предохранении данных от физической потери в случае сбоя, так и о предотвращении несанкционированного доступа к данным извне либо изнутри информационной системы.

В семейство продуктов OpenView включены программы для решения этих задач. Для защиты данных от сбоев используется модуль Data Protector, для ограничения доступа — входящий в состав OpenView Operations программный компонент Advanced Security.

Data Protector осуществляет централизованное резервное копирование информации на запасные носители и при необходимости ее оперативное восстановление. Для минимизации времени простоя и устранения влияния процедуры копирования на работу предприятия в Data Protector применяются такие методы, как работа в онлайновом режиме, копирование открытых в данный момент файлов, параллельное зеркальное копирование, инкрементное копирование при работе с базами данных и работа в кластерных конфигурациях.

Data Protector предоставляет пользователям общий интерфейс для автоматизации и управления резервированием на различных уровнях — от одиночного компьютера до гетерогенных сетей хранения данных SAN или хранилищ NAS, использующих большое количество серверов. Программа поддерживает множество агентов для работы с дисками и серверов резервного копирования, позволяющих извлекать данные из приложений и записывать на дисковые или ленточные резервные носители.

Подробная информация о резервируемых файлах, сессиях резервного копирования и используемом аппаратном обеспечении хранится в центральной базе данных. Система контролирует собственную работу и оповещает администраторов о серьезных происшествиях, используя электронную почту, локальную сеть или сообщения на пейджер.

Модуль Advanced Security, обеспечивающий защиту против пассивных атак на информационную систему (например, от прослушивания), действует на всем пути сетевого трафика между центральной консолью управления и распределенными интеллектуальными агентами. С его помощью обеспечивается шифрование, идентификация и контроль целостности данных.

Прогнозирование неисправностей

В любой информационной системе постепенно накапливаются некоторые проблемы, до поры до времени не приводящие к нарушению доступа пользователей к сервисам. Однако количество иногда имеет тенденцию к переходу в качество, и в некий момент может произойти серьезный сбой, в результате которого будут нарушены бизнес-процессы компании.

Для предотвращения подобных ситуаций на уровне серверов и их приложений можно использовать комбинацию программных компонентов семейства OpenView — Performance Manager и Performance Agents. Они позволяют на основе единого интерфейса осуществлять централизованный мониторинг, анализ и прогнозирование использования ресурсов в распределенных и неоднородных сетевых средах (рис. 3). Кроме того, Performance Manager также интегрируется с OpenView Operations и NNM.

Fig.3
Рис. 3. OpenView Performance Insight ведет контроль.


Два этих пакета позволяют получить ответы на вопросы о том, реагирует ли приложение на запросы, приемлемо ли время отклика приложения для пользователя, обеспечивается ли необходимое качество услуг в автоматизированной системе и т. п. Они решают задачи распределенного управления производительностью ИТ-ресурсов, устранения неисправностей, планирования ресурсов системы и управления сервисами.

Performance Agents осуществляет постоянный мониторинг выбранных параметров для обнаружения возникающих нестандартных ситуаций. Применяемые при этом критерии базируются на комбинациях различных показателей, которые могут задаваться в виде пороговых значений или допустимых интервалов. На основании результатов анализа этих показателей программа отслеживает возникновение нестандартных ситуаций в информационной системе и генерирует предупреждения администраторам.

Кроме того, используя интеллектуальную технологию сбора и обработки данных, Performance Manager и Performance Agents определяют производительность доступных вычислительных ресурсов и выявляют сегменты системы, в которых они используются наиболее продуктивно. Эта работа важна при определении узких мест в информационной системе с целью их дальнейшего устранения. Для контроля производительности сетевых ресурсов в режиме реального времени применяется дополнительная программа Performance Monitor, позволяющая заранее настроить систему на автоматическое выполнение ряда действий при возникновении критических ситуаций.

Решения на основе продуктов семейства Performance позволяют проводить непрерывный мониторинг критических приложений и системных ресурсов. С их помощью предоставляются подробные отчеты о состоянии и функционировании информационной системы. При этом поддерживается стандарт ARM (Application Response Measurement) и технология объединения данных из внешних источников DSI (Data Source Integration). Сообщения генерируются и рассылаются в виде событий SNMP. Инструменты Performance реализованы на различных платформах, включая HP-UX, SunOS/Solaris, IBM AIX, Tru64 Unix и ряд других.

Стержень OpenView

Универсальное средство для связи различных модулей OpenView в единую систему службы поддержки — пакет OpenView Service Desk. С его помощью осуществляется наглядная визуализация процессов, происходящих в информационной инфраструктуре предприятия, и создается интегрированная среда управления для ИТ-подразделений и поставщиков услуг. Service Desk интегрирует информацию, поступающую от других модулей, и позволяет на основе деятельности интеллектуальных агентов диагностировать текущую ситуацию, например, определять наличие и уровень важности имеющихся повреждений.

OpenView Service Desk использует общий интерфейс обмена данными, базирующийся на XML. Он связывает поступающие обращения, выявление причины их появления и устранение возникшей проблемы в единый процесс управления качеством предоставляемых услуг. Необходимую информацию извлекает специальная служба, устанавливающая связь с источниками данных по открытому интерфейсу ODBC.

Этот программный продукт представляет собой объектно-ориентированное Java-приложение, основанное на отраслевых стандартах XML и TCP/IP. При работе с программой создаются необходимые поля, формы и шаблоны (рис. 4). Трехуровневая архитектура OpenView Service Desk обеспечивает высокую степень масштабируемости и гибкость пользовательских настроек, которые можно изменять с помощью WYSIWYG-редактора интерфейса.

Fig.4
Рис. 4. Пользовательский интерфейс OpenView Service Desk.


Service Desk позволяет организовать работу службы поддержки пользователей (Help
Desk), а также интегрировать в единый поток операций все процессы, связанные
с управлением конфигурацией аппаратных ресурсов сети и с обработкой инцидентов.
Это позволяет сервисной службе не только оперативно реагировать на возникающие
проблемы, но и решать большинство вопросов до того, как они отразятся на критически
важных бизнес-процессах.

Помимо описанных средств Service Desk содержит функции для управления проектами различной сложности, в том числе требующими многочисленных изменений аппаратных ресурсов и предоставляемых сервисов. Особое внимание здесь уделяется управлению информацией о происходящих переменах и их возможных последствиях для производственной среды.

В отчетных формах Service Desk использует графические схемы, таблицы, пиктограммы и списки. Для облегчения взаимодействия с внешними инструментальными средствами можно реализовать отчеты в виде базы данных.

Заключение

Программные решения семейства HP OpenView способствуют реализации бизнес-ориентированного подхода к управлению информационными и коммуникационными ресурсами предприятия. С помощью OpenView задачи управления ИТ-инфраструктурой решаются на уровне сервисов и услуг, предоставляемых пользователям. Использование модульного принципа при формировании архитектуры системы расширяет возможности ее адаптации к реальным бизнес-процессам и снижает финансовые затраты при поэтапной автоматизации деловой логики предприятия.

Редакция благодарит директора департамента программных решений российского
представительства Hewlett-Packard Сергея Лобова и других сотрудников компании
за помощь при подготовке этого материала.

Вам также могут понравиться