Интеллектуальное управление данными — фундамент развития СХД
В беседе с редактором раздела аппаратных средств «BYTE/Россия» Александром Николовым представитель по продажам систем хранения данных IBM EE/A Алексей Сапожков рассказывает о перспективах развития технологий и концепций, составляющих основу современных информационных хранилищ, включая интеллектуальный анализ данных, технологии виртуализации, сквозную интеграцию систем хранения в рамках концепции ILM.
«BYTE/Россия»: Объем потребляемых, тем или иным образом обрабатываемых и хранимых компаниями данных растет год от года чрезвычайно быстро, и этот рост уже сегодня ставит перед потребителями СХД целый ряд проблем, связанных в том числе с необходимостью масштабирования и наращивания емкости информационных хранилищ. Существующие технологии хранения, хотя и имеют неплохие показатели и потенциал для дальнейшего совершенствования, все же не могут масштабироваться безгранично. Рано или поздно (а учитывая темпы возрастания насыщенности информационных потоков — скорее рано) мы столкнемся с необходимостью поиска новых технических и технологических решений. Не могли бы вы прокомментировать взгляд IBM как одного из ведущих игроков на рынке систем хранения данных на эту проблему и возможности ее разрешения?
Алексей Сапожков: Что касается систем хранения, здесь в последнее время возникают проблемы технологического характера, связанные с ошибками операций, — в существующих сегодня магнитных технологиях присутствует, скажем так, системная, ничем не устранимая особенность, приводящая к тому, что на каждый петабайт данных гарантированно приходится одна ошибка чтения/записи. А петабайт данных в сегодняшних условиях — это не так уж много. Потребности в хранилищах подобного объема, что называется, не за горами — за рубежом такие объемы хранения уже реально существуют, да и в отечественных условиях мы сейчас имеем дело с сотнями терабайт. Проблема на самом деле весьма серьезная, и в исследовательских лабораториях IBM с некоторых пор ведутся соответствующие изыскания — разрабатываются технологии, функционирующие на принципах, отличных от магнитно-резистивных, что, как мы полагаем, позволит в недалеком будущем полностью заменить в системах хранения магнитные диски и флэш-память одновременно. Однако это все же дело будущего, а пока никто не отказывается от использования традиционных жестких дисков, поэтому IBM сейчас также занимается разработкой принципиально новых средств защиты: вполне возможно, что в самое ближайшее время на смену традиционным уровням организации RAID-массивов level 5, 10 и т. д. придут совершенно другие механизмы защиты.
Алексей СапожковОкончил Московский инженерно-физический институт по специальности «Прикладная математика» в 1984 г. По окончании института работал инженером на нескольких оборонных предприятиях; в 1991 г. перешел во ВНИПИ «Спорт» при Госкомспорте СССР, где и проработал на должности системного программиста до 1994 г., занимаясь проектом «Игры доброй воли». С 1994 г. Алексей Сапожков — сотрудник IBM EE/A (системный инженер, затем представитель по продажам серверов AS/400 и iSeries). С 2004 г. и по настоящее время — представитель по продажам систем хранения данных IBM EE/A. |
«BYTE/Россия»: Одна из примет настоящего времени — повышенное внимание со стороны корпоративных заказчиков к технологиям виртуализации, в том числе и в области хранения данных. Различные уровни логической абстракции внедрены в СХД достаточно давно, однако сегодня особый интерес вызывает концепция построения виртуальных сетей хранения, позволяющая заказчикам «отвязать» данные от конкретных физических устройств хранения и манипулировать ими более свободно. Расскажите, пожалуйста, как IBM рассматривает эту концепцию — каковы ее преимущества, недостатки и, разумеется, конкретные технические реализации, предлагаемые IBM на рынке?
А. С.: Виртуализация сама по себе имеет первоочередной целью сокращение затрат на обслуживание информационных хранилищ. Однако, что еще более существенно в сегодняшних условиях, важен потенциал виртуализации в плане эффективных схем управления огромными объемами информации.
По оценкам ведущих аналитических агентств, объемы хранимой и обрабатываемой компаниями информации в среднем увеличиваются на 64% в год. Для России эти показатели в ближайшем будущем, вероятно, могут оказаться даже выше — стремление нашей страны в ВТО накладывает на российские компании и органы государственной власти достаточно много новых требований в области хранения информации. Начнем с того, что значительная часть нашего законодательства должна быть увязана с действующими международными нормами в области регулирования экономической деятельности. Внутреннее законодательство в области безопасности, правоохранительной деятельности и борьбы с терроризмом также постоянно ужесточает требования к детализации собираемой и хранимой компаниями информации и срокам ее хранения. В итоге речь идет о действительно гигантских объемах хранения, справиться с которыми какими-либо иными средствами, без применения виртуализации просто невозможно.
В арсенале IBM имеется ряд средств для решения обеих названных выше задач, при этом каждое из них работает на своем уровне и составляет часть всеобъемлющей многоуровневой иерархической структуры. Я имею в виду такие решения, как SAN Volume Controller (SVC) и SAN File System. Первое отвечает за, скажем так, низкоуровневую виртуализацию — изоляцию серверов от систем хранения, когда пользовательские приложения посредством дополнительного промежуточного слоя отделяются от всех подробностей организации сети хранения и работают с некоей функциональной абстракцией СХД. Таким образом, SAN Volume Controller позволяет переложить вопросы управления информацией на уровень инфраструктуры. Второе решение представляет собой единую универсальную файловую систему для всей виртуализованной в рамках SVC инфраструктуры, прозрачно предоставляющую все необходимые сервисы серверам приложений.
SAN Volume Controller позволяет строить виртуальное окружение, используя мультивендорную гетерогенную инфраструктуру хранения, что чаще всего встречается в центрах обработки данных у реальных заказчиков: в принципе в архитектуре SVC можно применять дисковые системы — да и вообще любые системы, на которых хранится какая-либо информация, — каких угодно производителей. В настоящее время речь идет только о дисковых системах, однако я вижу развитие этой технологии в виртуализации всех back-end систем, входящих в корпоративный пул хранения. В идеале информационная система предприятия должна выглядеть следующим образом: множество виртуальных серверов, исполняющих различные пользовательские приложения, обслуживается единым виртуальным хранилищем, при этом физическая структура и организация этого хранилища не имеют особого значения — оно может быть локально сконцентрированным или распределенным по всему миру, это совершенно не важно, главное, что практически нет пределов наращиванию объемов хранения и масштабированию.
Стоит упомянуть и о технологиях виртуализации архивного хранения. Замечу, что IBM всегда твердо придерживалась и до сих пор всячески подчеркивает свою принципиальную позицию по вопросу ленточных систем хранения — на текущий момент без лент обойтись невозможно. Здесь есть причины и ценовые — стоимость хранения на ленте пока недостижима ни для одной из конкурирующих технологий хранения, и технологические — огромные объемы хранения опять же могут предоставить только ленты (например, в лабораториях IBM уже опробованы технологии, позволяющие записывать на ленту до 8 Тбайт), и административные — ленту легко извлекать и перемещать. Наконец, по такому показателю, как стоимость владения информацией, ленточные архивы опять же вне конкуренции — взять хотя бы затраты на электроэнергию для питания, которой для них требуется в разы меньше, чем для дискового хранилища. И самое главное, особенно с точки зрения требований государственной регуляции: на лентах аппаратно реализована технология однократной записи WORM. На дисках такое можно реализовать только программными средствами.
Так вот, несмотря на все достоинства ленты, у нее все же имеется один существенный недостаток — с точки зрения скорости доступа к информации ленточные системы хранения чрезвычайно медлительны. Для устранения этой проблемы как раз и существует промежуточный слой виртуализации — так называемая виртуальная лента. По сути своей это некое кэширующее устройство, обычно дисковая система хранения, которое для сервера представляется стандартной лентой.
«BYTE/Россия»: Концепция управления жизненным циклом информации сулит предприятиям, рискнувшим ее реализовать, разнообразные выгоды. Однако с ней связана и существенная проблема — каждый поставщик решений понимает ILM по-своему, так что задаваемые ими векторы порой расходятся в противоположные стороны: кто-то продвигает под брэндом ILM программно-аппаратные комплексы собственного производства, кто-то делает из него ширму для своих консалтинговых услуг. Каким образом IBM рассматривает концепцию ILM?
А. С.: Концепция ILM в свое время возникла из уже озвученной потребности управлять большими объемами информации в условиях ограниченных ИТ-бюджетов. Кроме того, компаниям хочется не просто хранить какие-то данные, но по мере возможности извлекать из них выгоду, формируя для себя новые конкурентные преимущества. Проблемами такого рода IBM занималась задолго до появления специального термина ILM и, надо отметить, накопила достаточно большой опыт их разрешения. В нашем понимании ценность концепции ILM как таковой заключается в том, что она позволяет сблизить позиции руководства компании и ИТ-департамента, помогает им прийти к некоторому общему знаменателю, к взаимно однозначным критериям оценки и говорить на одном языке. В архитектурном плане ILM ценна тем, что позволяет выстроить четкую и прозрачную иерархию уровней хранения — оперативная информация, промежуточный архив, дальний архив, где каждому периоду управления соответствует свой набор данных.
Сегодня в недрах концепции управления жизненным циклом информации просматривается одна весьма интересная тенденция — фокус управления медленно, но верно смещается с собственно данных в сторону контента. Потребность в постоянном поиске новых конкурентных преимуществ заставляет компании не просто хранить данные и составлять на их базе какие-то отчеты, но все глубже вникать в их смысл, открывая новые зависимости и значения. Сейчас работа с контентом в таком ключе в основном лежит на плечах бизнес-аналитиков — они анализируют некоторую часть информации, присутствующей в корпоративных хранилищах, определяя ее содержание и ценность для бизнеса. Однако такой подход имеет массу недостатков, и будущее, как мне видится, за автоматизацией операций с контентом — специализированные поисковые машины должны по заданным критериям автоматически отыскивать важную для компании информацию и неким образом консолидировать полученные данные, предоставляя персоналу компании, ответственному за развитие бизнеса, лишь результат в удобной для восприятия форме. В определенном смысле это новая реинкарнация того, что обычно называют business intelligence, где ILM и бизнес-аналитика все теснее переплетаются между собой на основе автоматического управления данными.
Тут стоит также упомянуть о целом спектре проблем, связанных с интеллектуальным поиском информации. Прежде всего этот процесс подразумевает некий семантический анализ хранимой информации — анализ ее смысла, далеко выходящий за рамки поиска и разбора выставленных аналитиками характеризующих меток. Речь идет о разработке сложных математических моделей, о понимании того, что на самом деле представляет собой информация, какими свойствами она обладает и как изменяется в тех или иных обстоятельствах. Например, ценность информации со временем не остается постоянной — она может и падать, и возрастать.
Таких вопросов достаточно много, и носят они не прикладной, а фундаментальный характер. Для их решения, скорее всего, потребуются годы напряженного труда и значительные инвестиции, однако ожидаемые результаты выглядят весьма многообещающе, и в лабораториях IBM уже ведутся исследования в этом направлении. Пока сложно сказать, чем именно все это закончится, но IBM активно работает над компонентами, ответственными за работу с контентом, и столь же активно приобретает компании, занимающиеся этим направлением.
Если же говорить о проблемах, связанных с ILM, то основная из них состоит в том, чтобы концепция ILM наконец начала продаваться у нас на локальном рынке. Пока, несмотря на понимание ее преимуществ в среде ИТ-профессионалов и сдержанное одобрение в среде высших управленцев, продается она в силу ряда объективных причин достаточно вяло.
«BYTE/Россия»: Концепция управления жизненным циклом информации подразумевает сопряжение — в рамках единого корпоративного информационного пространства — разных типов и классов систем хранения, обеспечивающих оптимальную стоимость использования и хранения данных. В этой связи следующий вопрос: IBM предпочитает строить ILM-решения, используя вертикальную моновендорную архитектуру собственного стандарта, или же ориентируется на некие открытые стандарты, пусть даже пока не формализованные в виде утвержденных документов? И если верно последнее, то каким образом должна быть организована сквозная интеграция оборудования различных производителей в рамках стратегии ILM?
А. С.: Тенденции к интеллектуальному поиску внутри корпоративных хранилищ данных некоей важной для бизнеса информации и консолидации в рамках ILM корпоративных информационных хранилищ в единое информационное пространство компании подразумевают, что разнообразные системы хранения разных классов и типов в таких структурах должны тем или иным образом взаимодействовать между собой, используя единый стандартизованный интерфейс.
IBM имеет и вертикальную, и горизонтальную составляющую для организации таких решений, и, разумеется, в обоих случаях речь идет об использовании только открытых индустриальных стандартов — наша компания строго придерживается этого правила. Вообще можно отметить, что IBM не приветствует никаких закрытых фирменных стандартов и не использует их в своих решениях.
Под вертикальной составляющей, конечно же, понимается вся иерархия наших систем хранения — от дисковых СХД до ленточных библиотек. Под горизонтальной составляющей следует понимать упомянутые выше решения для виртуализации, в частности, SAN Volume Controller, которые позволяют эффективно и достаточно просто объединить гетерогенную мультивендорную инфраструктуру хранения в единое легко управляемое и масштабируемое информационное хранилище.
Вообще с уверенностью можно сказать, что именно промежуточный виртуализационный слой, позволяющий заказчикам строить консолидированные информационные хранилища, не беспокоясь о проблемах физического сопряжения СХД разных типов, классов и производителей, станет конкурентным преимуществом компании в борьбе за сокращение издержек на поддержание ИТ-инфраструктуры. В известной степени виртуализация — это ключ к эффективной реализации концепции ILM на предприятии. Стратегия IBM как раз состоит в активном приобретении опыта в этой сфере, в том числе и посредством поглощения сторонних компаний — их разработок и технологий, с тем чтобы создать определенную технологическую среду и на ее базе реализовать технологию сквозной интеграции информационных хранилищ с элементами интеллектуального поиска информации.