Хранение данных в КИС
Сергей Васильев,
эксперт компании "Электронный архив" (http://www.elar.ru)
grandhotel@mail.ru
Возможности современных компьютеров по обработке информации изменили характер
документов, хранимых и обрабатываемых в корпоративных сетях, — наряду с текстом
в них становится все больше графики, видео, звука. В крупных корпорациях информация
накапливается так быстро, что емкости RAID-систем (Redundant Array of Inexpensive
Disks, избыточный массив недорогих дисков) могут ежегодно увеличиваться на 80%.
По оценкам корпорации IDC (http://www.idc.com),
расходы на хранение данных в 2001 г. составят около 50% всех затрат на информационные
системы. В организациях, ориентирующихся на безбумажные технологии, быстро растут
расходы на закупку, содержание и надежное функционирование средств хранения.
Плюсы и минусы RAID
В информационных системах RAID-массив (или жесткий диск) служит первичным накопителем информации сервера. Современный жесткий диск наилучшим образом подходит для хранения системных файлов операционных систем и приложений. В организациях, где объем информации невелик, емкости имеющихся RAID-массивов может оказаться достаточно для хранения не только системных файлов, но и всех документов, создаваемых пользователями в ходе работы.
Чтобы обеспечить восстанавливаемость системы в случае аварии, создаются резервные копии данных. В зависимости от выбранной стратегии резервного копирования на лентах может одновременно храниться несколько полных резервных копий и несколько разностных копий. Резервные данные используются крайне редко, и желательно, чтобы затраты на их хранение были минимальными. Резервное копирование, заключающееся в периодическом дублировании данных одним потоком, отнимает существенные ресурсы процессора, а при удаленном копировании увеличивает нагрузку на сеть. Чтобы не мешать работе, процедура резервирования должна выполняться достаточно быстро и в период наименьшей активности пользователей и приложений.
Такой подход эффективен в небольших организациях, где суммарный объем используемой информации не превышает нескольких сотен гигабайт, и для ее размещения достаточно емкости недорогих RAID-массивов. При объеме более 1-2 Тбайт стоимость хранения на RAID-системах может стать неоправданно высокой. Кроме того, опережающими темпами увеличивается и требуемая емкость носителей для резервного копирования, что еще больше увеличивает расходы на оборудование подсистемы хранения.
Плюсы и минусы накопителей на магнитной ленте
Чтобы уменьшить необходимый объем RAID-памяти, данные, которые предположительно не требуют немедленного доступа, архивируются на недорогих носителях, которые хранятся на полках (в режиме offline). В растущих системах начального уровня для этого часто применяются накопители на магнитной ленте (МЛ) (рис. 1). Они традиционно считаются оптимальным устройством для резервного копирования, поскольку обеспечивают высокую емкость и потоковую скорость передачи данных при наименьшей стоимости.
Рис. 1. Система хранения данных небольшой фирмы.
|
На первый взгляд, это позволяет отодвинуть срок наращивания памяти и сэкономить средства. Однако спрос на архивную информацию всегда сохраняется. При увеличении объемов архивной offline-информации специалисты информационно-технических отделов быстро растущих компаний оказываются не в состоянии предоставить пользователям затребованные теми данные в приемлемые сроки — информация становится недоступной, ценность ее снижается, стоимость управления растет.
Кроме того, несмотря на предпринимаемые меры, через некоторое время обнаруживается, что емкость используемых RAID-массивов исчерпана, на полках скопилось огромное количество лент со старыми данными, а система резервирования не справляется со своими задачами. Дальнейшее масштабирование системы хранения требует ее серьезной архитектурной модернизации, замены морально устаревших накопителей, что может привести к потере ранее сделанных инвестиций и появлению непрогнозируемых расходов. Если речь идет о росте корпоративного хранилища, содержащего десятки миллионов страниц документов, записей баз данных, сообщений электронной почты, терабайты информации для систем принятия решений и управления знаниями, то эти расходы могут стать просто астрономическими.
Эффективное хранилище корпоративной информации
Постановка задачи для ИТ-менеджеров такова — обеспечить надежное хранение данных и эффективный доступ к ним для сотрудников. В крупной организации решить эту проблему и сохранить затраты на приемлемом уровне — задача не из легких, требующая грамотного подхода при планировании и развертывании подсистемы хранения.
Как показывает практика, значительная часть (до 80%) хранимых в корпорациях сведений используется достаточно редко. Лишь в 5-10% пользовательских запросов требуется обращение к этим данным. Ясно, что, освобождая RAID-системы от подобной информации, перемещая ее на менее дорогие сменные носители, мы получаем сразу целый ряд преимуществ: уменьшается стоимость подсистемы хранения, повышается производительность дисковых массивов, снижается объем и время резервного копирования, а значит, и потребность в оборудовании.
Информация — один из важных активов современной организации. Однако данные имеют реальную ценность только в том случае, если они получены в приемлемые сроки. От того, как быстро пользователи (или приложения) получают запрошенную информацию, зависит эффективность их работы. Чтобы обеспечить высокую оперативность, необходим постоянный сетевой доступ ко всему объему информации, а это невозможно при хранении ее на сменных носителях в режиме offline (вне сетевого доступа). Хранение же редко используемых корпоративных данных на RAID-массивах (в режиме online), как мы уже говорили, чрезвычайно затратно и неэффективно.
Роботизированные библиотеки
Одним из решений, позволяющих повысить эффективность применения RAID-систем и обеспечить прозрачный доступ к архивным данным, могут стать роботизированные библиотеки. Роботизированная библиотека представляет собой устройство, в корпусе которого размещаются магазины для хранения сменных носителей (несколько сотен дисков или лент), приводы, транспортный механизм для смены носителей в приводах и (в некоторых системах) для их переворачивания.
Для этих архивных накопителей характерны такие достоинства, как высокая емкость, стабильность и долговечность используемых носителей при их невысокой стоимости, возможность автоматизированного управления, возможность создания физически защищенных от удаления записей, простота внедрения, легкость масштабирования, невысокие затраты при модернизации. Эти накопители эффективны для работы с большими объемами (десятки терабайт) редко используемой информации, но по скорости доступа они уступают RAID-системам, и поэтому их называют накопителями near-line ("почти на линии").
RAID-системы, в свою очередь, обеспечивают оперативный доступ к информации, на них хранятся наиболее активно используемые данные, доля которых в общем объеме обычно составляет около 10-20%.
HSM — иерархические хранилища
Наиболее эффективную, прозрачную для пользователей и приложений одновременную работу со всеми типами накопителей корпоративного хранилища обеспечивает ПО, работающее в соответствии с концепцией сетевого хранения HSM (Hierarchical Storage Management, управление иерархическими системами хранения). При использовании программных продуктов HSM подключение библиотеки к информационной системе выглядит как расширение уже существующего тома RAID-массива — не требуется никакой перенастройки запросов в системе. Таким образом, вся совокупность накопителей в корпорации превращается в единое виртуальное хранилище информации (см. рис. 2).
На сегодня основные разработчики ПО HSM — компании OTG Software, BakBone Software, FalconStor и Sanbolic. Многие производители накопителей (DISK, Plasmon, Quantum, Maxtor и т. д.) рекомендуют продукты этих компаний для работы со своим оборудованием и используют их в совместных решениях. На отечественном рынке подобные HSM-ориентированные решения продвигает московская фирма "Прософт-М", специализирующаяся на создании крупных хранилищ и электронных архивов информации.
Ключевое преимущество HSM-технологии — возможность автоматической оптимизации размещения данных по различным типам носителей информации. Благодаря этому удается минимизировать стоимость владения данными: использование дорогих систем хранения становится более эффективным при сохранении доступности и увеличении надежности информации.
Накопители в HSM организованы в иерархию и разделены по функциональному признаку: первичные накопители — высокопроизводительные RAID-массивы, вторичные — более емкие и надежные роботизированные библиотеки. Процесс оптимизации размещения данных напрямую связан с традиционными процедурами архивирования — резервированием (перемещением редко используемых данных на недорогие носители архивных накопителей) и восстановлением (возвращением затребованных данных на RAID-массив). Для пользователей и приложений эти операции протекают прозрачно, в фоновом режиме; миграция данных осуществляется автоматически, на основе правил, заданных при настройке ПО.
Рис. 2. Корпоративное хранение на базе технологии HSM.
|
Сегодня в качестве вторичных используются архивные накопители на магнитных лентах, оптических дисках (CD и DVD) и магнитооптических дисках.
Как уже говорилось, и для резервного копирования, и для архивирования данных на начальном этапе развития ИТ использовалась магнитная лента. Однако характерный для МЛ последовательный метод доступа к информации делает почти невозможным использование ленточных накопителей в качестве разделяемого многопользовательского ресурса. Кроме того, в ходе эксплуатации лента изнашивается гораздо быстрее, чем диски. Поэтому ленточные накопители главным образом используются для резервирования данных на случай восстановления системы после аварии или сбоя.
Впрочем, ленточные библиотеки могут служить эффективными устройствами near-line в некоторых системах, где хранятся чрезвычайно большие файлы и необходима высокая потоковая скорость последовательной передачи данных, а потребности в одновременном доступе к данным практически нет. По данным аналитиков сегодня около 70% ленточных носителей применяются для резервного копирования, 20% — для архивирования информации, хранящейся в режиме offline, и только 10% — для хранения очень больших файлов (таких, как геологические данные или видеоматериалы).
Следует заметить, что процесс архивирования может почти в пять раз сократить требуемую емкость RAID-систем, снизив таким образом издержки.
Произвольный доступ к данным, характерный для дисков, обеспечивает принципиальную возможность одновременного обращения к разбросанным по носителю данным, снижает время ожидания при извлечении информации и дает дисковым архивным накопителям преимущество перед ленточными при использовании в качестве вторичной памяти в многопользовательских информационных системах с большой интенсивностью транзакций.
Использование вторичных накопителей в корпоративных системах позволяет существенно снизить затраты на хранение информации. По оценкам аналитиков, использование архивных систем хранения снижает только непосредственные расходы на закупку оборудования в несколько раз. Кроме того, уменьшаются затраты на управление данными, составляющие существенную часть стоимости систем хранения, повышается их надежность, облегчается масштабируемость.
Внедрение в корпоративном хранении роботизированных библиотек целесообразно, когда требуется постоянный многопользовательский доступ к быстрорастущим архивам электронных образов документов, графической и мультимедийной информации. Организации же и предприятия, заинтересованные в повышении эффективности и надежности, все в большей мере используют решения на базе вторичного хранения, получая высокую продуктивность использования информации.