Управление контентом и интеграция приложений в решениях IBM
Андрей Колесов
Управление контентом и IBM DB2
Большинство исследований корпоративных систем показывает, что организации хранят в базах данных лишь около 20% своей информации. В значительной степени это обусловлено тем, что до относительно недавнего времени СУБД ориентировались в первую очередь на обработку и хранение сложной структурированной информации. В то же время основной объем информационных ресурсов предприятий (именно их теперь принято называть термином content, т. е. информационное наполнение) состоит из неструктурированных данных, хранящихся, как правило, в виде отдельных файлов (офисные документы, отсканированные изображения, данные, сгенерированные компьютером, файлы XML и HTML, передаваемые по факсу сообщения, аудио- и видеоклипы, электронная почта и т. п.). Да и многие структурированные данные зачастую хранятся в виде неупорядоченных наборов файлов, например, электронных таблиц.
Сегодня создание единой информационной среды — одна из наиболее актуальных задач, включающая два основных аспекта: формирование единых хранилищ и применение механизмов интеграции данных (на практике оба варианта обычно используются совместно). В любом случае центральное место в решении этой задачи занимают СУБД. Ключевая роль в программных технологиях IBM, ориентированных на управление данными, отводится направлению DB2. Эта технология представляет собой не просто СУБД, а целое семейство продуктов и интегрированных средств.
С помощью универсальной базы данных DB2 можно управлять различными видами информации. В частности, расширения DB2 Extenders позволяют работать с изображениями, видео, речью, документами XML, сложными текстами, пространственными объектами и т. п. Кроме того, дополнительное средство DB2 Data Links Manager поддерживает работу с внешней файловой системой, обеспечивая при этом ссылочную целостность данных, контроль доступа и т. д. DB2 Relational Connect (также дополнительная функция DB2) может запрашивать данные в других реляционных СУБД, например, Oracle и Microsoft SQL Server.
Однако для управления данными в системах масштаба предприятия желательно использовать специализированные продукты, такие, как IBM Content Manager, восьмая версия которого появилась на рынке в 2002 г. Данное решение ориентировано в первую очередь на создание хранилищ данных (электронных архивов), в которых объем информации весьма значителен, но при этом сами данные (например, мультимедийные клипы) не изменяются после сохранения. Следовательно, в таких случаях оказываются ненужными возможности СУБД для управления самими физическими объектами, кроме как в случае их каталогизации.
В частности, эта система хорошо подходит для банков, которые обрабатывают и хранят миллионы изображений чеков; для страховых компаний, которые сканируют и хранят информацию о страховых полисах; для мультимедийных коллекций (в качестве примера можно назвать Музей искусства Ватикана) или для архива новостей компании типа CNN. Говоря о практическом применении данной технологии, можно упомянуть и о российском проекте, выполненном для электронного архива Эрмитажа.
В новой версии Content Manager 8.0 большое внимание уделено повышению эффективности поиска, в том числе по графическим образам документов. Однако возможности работы с русскоязычными документами в нем пока весьма ограниченны: сейчас можно использовать только контекстный поиск, без учета морфологии языка. В то же время одна из самых сильных сторон Content Manager с точки зрения организаций, ориентированных на клиентов, — это средства управления отношениями с клиентами. С помощью таких средств можно извлекать и представлять в удобном виде всю корреспонденцию клиентов, сопроводительные документы и их историю, чтобы персонал ясно понимал потребности клиентов и эффективно обслуживал их.
IBM Content Manager
IBM Content Manager реализован на базе СУБД IBM DB2, специальная версия которой входит в состав его поставки. При этом пакет может также использовать другие хранилища данных (Oracle, Sybase, Microsoft SQL Server, Documentum, FileNet, Lotus Notes), но модули для работы с ними нужно приобретать отдельно. IBM Content Manager — это одновременно и старый, и новый продукт: в принципе он представляет собой дальнейшее развитие цифровой библиотеки DB2 Digital Library и EDMSuite VisualInfo.
Говоря о Content Manager, мы по сути ведем речь о портфеле решений, включающем несколько продуктов. Базовое ПО Content Manager — ключевой компонент для хранения широкого спектра бизнес-информации в цифровом виде, от сканированных изображений и факсимиле до XML и разнообразных мультимедийных данных. Он также обеспечивает автоматизацию документооборота и управление версиями.
Content Manager OnDemand имеет дело с потоками компьютерных выходных печатных материалов, таких, как счета, различные документы о транзакциях и отчеты. Логически этот продукт тесно примыкает к Content Manager ImagePlus и MQSeries Workflow — приложениям для обслуживания клиентов, рассчитанным на большие объемы данных. MQSeries Workflow помогает быстро проектировать и автоматизировать бизнес-процессы, а Content Manager ImagePlus обеспечивает обработку большого объема изображений. Оба указанных продукта также базируются на DB2.
Еще один продукт, Content Manager VideoCharger, обрабатывает мультимедийные потоки в режиме реального времени. При этом используются обычные Web-браузеры на рабочих станциях. VideoCharger может работать с информацией в многочисленных форматах видео и аудио, включая MPEG и QuickTime.
Информационный портал предприятия IBM дает возможность бизнес-пользователям создавать персонализированные запросы и использовать обширные поисковые возможности для традиционных структурированных и неструктурированных источников данных.
Content Manager CommonStore for SAP, Content Manager CommonStore for Lotus Domino и Content Manager CommonStore for Exchange Server — компоненты, обеспечивающие архивирование и длительное хранение сред соответствующих приложений.
Архитектура Content Manager
В состав Content Manager входят сервер библиотеки, серверы объектов (для хранения, их число может быть любым) и клиент, предоставляющий пользовательский интерфейс.
Сервер Content Manager использует запатентованную "пирамидальную" архитектуру (патент США 6.044.373), показанную на рис. 1. Его клиент, а также любые другие приложения используют единый объектно-ориентированный интерфейс API для вызова сервисов Content Manager. Сервисы разделены между библиотечным (Library) и одним или несколькими ресурсными (Resource) серверами.
Рис. 1. Архитектура Content Manager.
|
Библиотечный сервер обеспечивает хранение метаданных, индексацию, авторизацию пользователей и управление хранением документов в качестве "объектов" на ресурсных серверах. Все обращения к библиотечному серверу осуществляются с помощью стандартного языка запросов SQL и скрыты от пользователя. Результаты запросов передаются клиенту и содержат ссылки на объекты, к которым пользователь может получить доступ согласно его полномочиям. После этого клиент напрямую получает выбранный объект с ресурсного сервера с помощью стандартных Интернет-протоколов HTTP, FTP или FILE.
Базы данных DB2, Oracle или Microsoft SQL Server могут использоваться в рамках данной технологии как хранилище метаданных (к Content Manager прилагается лицензия на ограниченное использование DB2 для тех клиентов, у которых такой лицензии еще нет). В этом хранилище содержится главный индекс всей информации, на которую ссылается Content Manager. В числе прочего это данные о правилах защиты и параметрическая информация для контекстного поиска. В ответ на запросы пользователей серверы ресурсов извлекают контент из различных источников, указанных в хранилище. Пользовательский интерфейс используется приложениями для сбора, поиска контента и манипулирования им. Когда клиент делает запрос, происходит обращение к серверу библиотеки. Тот направляет запрос на любой сервер ресурсов, способный этот запрос удовлетворить.
Такая архитектура позволяет размещать ресурсные серверы удаленно, рядом с группами пользователей, которые создают и поддерживают информационное наполнение. Эти серверы могут работать под управлением различных операционных систем.
Технология, предусматривающая полное отделение управления метаданными и контроля
доступа от управления объектами и доставки содержимого, обеспечивает:
- высокую производительность независимо от объемов хранилища;
- неограниченную масштабируемость и распределенность;
- использование инструментов базы данных для управления метаданными;
- использование высокоскоростных файловых протоколов передачи данных для доступа
к ресурсным серверам; - использование открытых стандартов, включая SQL, XML, HTTP, FTP, MPEG-4 и
Java.
Благодаря специализированным менеджерам ресурсов можно использовать различные интерфейсы для доставки объектов. Например, специализированные видеосерверы могут функционировать в качестве менеджеров ресурсов, производя преобразование "на лету" с учетом загрузки канала и требований пользователей, а также обеспечивая выполнение специальных операций с потоками, включая кадрирование и поиск.
Кроме того, система обеспечивает полную поддержку транзакций с контролем целостности ссылок для доступа к объектам через высокоуровневые интерфейсы API. В состав транзакций входят как метаданные, так и объекты.
Высокая масштабируемость обусловлена использованием ресурсных серверов для хранения самих документов. Серверы можно добавлять в любое время при возрастании нагрузки. Одним из примеров использования нескольких ресурсных серверов служит хранение различных классов документов и объектов на разных серверах в зависимости от того, насколько оперативно эти объекты должны предоставляться пользователям. В частности, видеоинформацию лучше хранить на сервере, подключенном к сети через высокоскоростной канал; в то же время редко используемые документы можно поместить на сервер с низким быстродействием.
Для оптимизации использования ресурсных серверов можно применять пакет Tivoli Storage Manager (TSM), позволяющий поместить каждый объект-документ на подходящий носитель. При этом работа происходит с так называемым пулом хранения, который обеспечивает соответствующий объем хранения и уровень производительности, указанный в политиках архивирования.
Документы, находящиеся на ресурсном сервере, доступны пользователям немедленно. Если необходимо предоставить документ, который в настоящий момент сохранен на внешнем носителе, TSM автоматически проведет поиск нужного носителя и считает с него объект в ресурсный сервер, после чего документ будет предоставлен пользователю. В любом случае уровень архитектуры CommonStore гарантирует, что все компоненты архивного решения полностью скрыты от пользователя. Он получает документы в привычном для себя виде и может даже не подозревать о том, что за сценой осуществляются массированные процессы обработки. Возможно, правда, пользователь все же заметит одно изменение, а именно — повышение производительности бизнес-приложений!
Tivoli Storage Manager
TSM — это масштабируемая система управления хранением корпоративного уровня. Ее функции включают резервное копирование, создание нескольких копий архивов данных, в том числе географически разнесенных. Но у TSM есть и другие ценнейшие свойства. Так, в среде SAP этот продукт обеспечивает абсолютную уверенность в высокопроизводительном и сверхнадежном управлении документами.
TSM с логической точки зрения находится уровнем ниже Content Manager и отвечает за размещение и перенос электронных документов в иерархии логических пулов хранения. Управление хранением упрощается благодаря применению политик администрирования, которые направляют определенные классы данных в соответствующие места иерархии хранения. Это сокращает потребность в администраторском персонале и снижает общие затраты. В рамках методологии TSM политики хранения данных базируются исключительно на потребностях бизнеса.
Система TSM хранит копии документов в течение длительного периода времени (до нескольких десятилетий), по мере прохождения жизненного цикла перенося их на резервный диск, оптический диск, ленту и т. п. Наконец, когда все законодательно установленные сроки хранения истекают, документ можно перенести на самый медленный носитель.
В решении на базе Content Manager несколько серверов TSM могут, например, обслуживать одну среду SAP. При необходимости масштабирования или повышения надежности (скажем, в случае нехватки ресурсов) можно просто добавлять серверы TSM.
Создание электронного архива
Электронный архив на основе IBM Content Manager способен обеспечить высокую сохранность и защиту документов, прозрачную интеграцию и быстрый поиск информации. Интеграция с приложениями SAP R/3, системами документооборота и почтовыми серверами может осуществляться с помощью специального компонента IBM CommonStore, который входит в состав описываемого решения.
Для минимизации нагрузки на корпоративную интрасеть и повышения скорости работы можно создавать локальные копии архива в удаленных структурных подразделениях компании. Встроенные механизмы репликации обеспечат синхронизацию архивов и перемещение новых документов между удаленными архивами в зависимости от типов документов и настроек администратора. Архитектура предлагаемого решения представлена на рис. 2. В центральном архиве осуществляется ввод информации и интеграция с другими системами. Управлять архивом (в том числе удаленным) можно централизованно, из одного места. Все изменения и настройки, сделанные администратором в центральном архиве, могут автоматически рассылаться в удаленные системы. Такой подход избавляет от необходимости обучать и держать специальный персонал в местах развертывания удаленных архивов. При осуществлении процедур управления и обслуживания можно обойтись малым количеством специалистов.
Рис. 2. Архитектура электронного архива на базе IBM Content Manager.
|
Content Manager служит фундаментом для создания электронного архива. Далее в зависимости от существующей инфраструктуры предприятия и решаемых задач можно использовать различные компоненты, строя их них, как из кубиков, необходимую функциональность архива и интегрируя его с другими приложениями.
В частности, для интеграции информации из SAP R/3 и ее архивирования предназначен продукт IBM CommonStore for SAP, сертифицированный компанией SAP AG. Он использует специальный программный интерфейс SAP ArchiveLink для взаимодействия с R/3, архивации и восстановления документов. CommonStore для SAP абсолютно прозрачен для пользователей и не изменяет пользовательский интерфейс SAP. Благодаря полной интеграции с SAP пользователи R/3 могут при помощи SAP DocFinder искать нужные документы не только в самой базе R/3 или заархивированных из нее документах, но и среди всего корпоративного электронного архива при наличии соответствующих полномочий.
Аналогично, для работы с почтовыми серверами или системами документооборота можно использовать модули IBM CommonStore for Lotus/Exchange, которые обладают аналогичной функциональностью и позволяют архивировать вложения в сообщения электронной почты и сами сообщения, а также предоставлять доступ к ним из любого места, любому авторизованному пользователю.