Перспективные технологии в корпоративных хранилищах данных
BYTEmag.ru
По прогнозам аналитиков, в ближайшие два года объем информации в мире будет ежегодно увеличиваться в шесть раз, и уже к 2015 году человечество будет ежегодно создавать контент, объем которого в 92,5 млн. раз превышает объем информации, хранящейся в библиотеке Конгресса США. Хотя темпы роста объемов цифровой информации растут, бюджеты на информационные технологии сократились, что привело к росту разрыва между объемами создаваемой информации и количеством приобретенных и установленных ресурсов для управления ею. Такое развитие событий приводит к возникновению спроса на инструменты и технологии (например, виртуализацию, дедупликацию и другие технологии), позволяющие управлять большими объемами информации с меньшими затратами ресурсов. Когда объемы систем хранения данных растут все быстрее, проблема эффективности их использования выходит на первый план. Отметим, что ведущими игроками на рынке дисковых хранилищ являются компании Dell, EMC, Fujitsu Technology Solutions, Hitachi/HDS, HP, IBM, NetApp, Sun Microsystems (в алфавитном порядке).
По мнению экспертов Gartner, виртуализация станет основным трендом, меняющим ИТ-инфраструктуру, до 2012 года. Глобальное исследование, проведенное компанией Penn, Schoen & Berland Associates (www.psbresearch.com), показало, что 86% ИТ-директоров планируют в ближайшее время виртуализировать до 75% имеющихся ИТ-ресурсов. Под виртуализацией обычно понимают технологию, позволяющую сделать вычислительные ресурсы автономными и взаимно независимыми. При этом можно говорить о виртуализации оборудования (серверов, десктопов), виртуализации приложений, виртуализации представлений и целом ряде других видов виртуализации. Для того чтобы быть эффективной, виртуализация должна применяться ко всем уровням вычислительной структуры, от центра обработки данных (ЦОД) до отдельного ПК. Благодаря виртуализации все элементы ИТ-инфраструктуры становятся более гибкими, а аппаратное и программное обеспечение может использоваться более разнообразно. При этом упрощаются многие задачи, выполняемые ИТ-персоналом.
Виртуализация хранения отделяет физические системы хранения от их логического представления. Основная идея подобной виртуализации — сконцентрировать все ресурсы разных физических систем хранения в одном большом пуле. Из этого пула можно легко выделять пространство хранения разным серверам приложений с разными ОС. Таким образом, виртуализация хранения привлекает к себе главное внимание, прежде всего, потому, что позволяет представлять все имеющиеся гетерогенные системы хранения в виде единого целого и управлять ими как одним пулом. Виртуализация обеспечивает разделение доступного пространства хранения на «виртуальные тома» независимо от физического размещения данных и архитектуры системы хранения. Такой подход ощутимо увеличивает коэффициент использования емкости хранения, дает возможность практически бесконечного наращивания емкости системы хранения, обеспечивает простое централизованное управление и администрирование. Возможность консолидации оборудования различных производителей в единую инфраструктуру позволяет добиться значительно упрощения инфраструктуры системы хранения, а единый интерфейс управления позволяет администраторам управлять в несколько раз большим объемом данных. Виртуализация системы хранения надежно защищает инвестиции, продлевая жизнь имеющегося у заказчика оборудования. Подключая дисковые массивы раннего поколения к современной системе, играющей роль платформы виртуализации, можно получить систему, управляемую как единое целое. Более того, для подключенных систем будут доступны все функции high-end массива. Такое решение позволяет добиться существенной экономии и не нарушать требований к доступности данных и обеспечению непрерывности ИТ-сервисов.
Появившись на рынке, технология виртуализации хранения данных (версии 1.0) обеспечила только консолидацию ресурсов в сети хранения данных (SAN, Storage Area Network). Архитектуры, разработанные к тому времени, были рассчитаны на прямое подключение устройств хранения данных (отсутствие совместного использования), интервалы для обслуживания, емкость, измеряемую гигабайтами, а также простоту управления и переноса. Сети хранения SAN консолидировали ранее разрозненные устройства хранения. Благодаря ним рассчитывали повысить эффективность использования ресурсов хранения данных и обеспечить централизованное управление. Однако, судя по публикуемой информации, ресурсы до сих пор используются лишь на 20-30%. Основная проблема заключается в том, что SAN хотя и соединили серверы с устройствами хранения, однако не смогли устранить разрозненность, поскольку выделение ресурсов производится в каждой системе хранения данных отдельно. К тому же отсутствовали средства для сетевого обмена и переноса данных между системами хранения данных. Иными словами, первая реализация (версия 1.0) виртуализации хранения данных на основе SAN не решила проблему мобильности данных. Эксперты отмечают, что миграция данных критична еще и потому, что диски имеют ограниченный срок жизни, максимум три–пять лет, и рано или поздно данные приходится переносить. Пока объемы данных измерялись гигабайтами или терабайтами, это действие не составляло проблему, но с приближением эры петабайтов перенос становится нетривиальной задачей. Предприятиям нужно быть всегда готовыми к переходу на другие носители. Еще один аргумент в пользу мобильности данных – это необходимость их перемещения в процессе жизненного цикла с дорогих носителей на более дешевые.
Виртуализация версии 2.0 предполагает выход за рамки консолидации, организованной при предыдущей версии виртуализации. Эта версия обеспечивает мобильность данных, бесперебойную работу, восстановление после сбоев и технологическую модернизацию без остановки работы. Виртуализация нового поколения позволяет задействовать самые современные возможности платформы услуг хранения для внешних систем хранения. Различие между первым и вторым этапами виртуализации состоит в том, что сначала нужно было научиться представлять гетерогенные ресурсы в виде одного пула и каким-то образом управлять им, а сейчас важно делать это с наибольшей эффективностью. Аналитики IDC называют виртуализацией 2.0 подмножество того, что другие эксперты именуют моделью частного облака (private cloud model). Иными словами, на смену статическим моделям приходят модели с динамически распределяемыми пулами ресурсов, при этом новые модели требуют минимального участия или полного отсутствия человека в управлении. Кроме того, пользователь платит только за те ресурсы, которые использует, а не за те которыми владеет.
Так, одно из основных преимуществ виртуализации заключается в возможности динамического резервирования дискового пространства (общее название – Thin Provisioning). Дело в том, что емкости, заранее выделенные приложениям, часто остаются незаполненными, поскольку создаются с запасом. В итоге невостребованным остается, как правило, более половины выделенного пространства. Некоторые компании используют для обозначения новой технологии собственные названия. Так, в Hitachi технология Thin Provisioning называется Dynamic Provisioning, в EMC – Virtual Provisioning, а в IBM — Space Efficient Virtual Disks. Но как бы она не называлась, данная технология, позволяющая заказчикам покупать только требуемую емкость и при необходимости наращивать ее без прерывания работы систем, обладает тремя основными достоинствами. Во-первых, исключается резервирование большего объема дискового пространства, чем это необходимо. Во-вторых, все пространство может быть заранее форматировано постранично, что позволяет брать ровно столько страниц, сколько реально нужно. И, в-третьих, существенно сокращается время запуска диска в работу. Последнее очень важно в связи с тем, что процедура привязки нового сервера к системе хранения может занимать часы, а динамическое резервирование сокращает это время до минут, что особенно критично в случае виртуальных серверов, которые обновляются намного чаще физических. Еще одно преимущество динамического резервирования в том, что оно упрощает распределение файлов по разным шпинделям, а распараллеливание естественным образом повышает производительность.
В модели SNIA (www.snia.org) рассматривают три уровня виртуализации хранения: на уровне сервера приложений – хоста (host), на уровне сети хранения (network) и на уровне системы хранения (device). Отделить физические ресурсы сервера (хоста) от их логического представления можно, установив специальные драйверы или менеджеры томов (volume manager). При таком подходе сервер «видит» все свои периферийные устройства хранения, но не получает никакой информации о других серверах приложений. Это ограничение можно частично снять с помощью решений для построения однородных кластеров. В интеллектуальных системах хранения функции виртуализации применялись достаточно давно. Например, серверы приложений «видели» не физические диски, а логические номера устройств LUN (Logical Unit Number), которые могут представлять раздел одного физического диска или несколько физических дисков. Однако в этом случае виртуализация всегда была ограничена одной системы хранения. В случае использовании виртуализации на уровне сетей хранения, в эту сеть добавляется дополнительная функциональность, которая реализуется на промежуточном уровне между серверами приложений и системами хранения с помощью специальной управляющей станции более высокого уровня. Преимущество этого подхода — в предоставлении функций виртуализации, как серверам приложений, так и системам хранения. Эта концепция реализуется в двух вариантах — симметричном (in-band) или асимметричном (out-of-band). Эти варианты реализации сетевой виртуализации различаются по тому, как сочетается передача метаданных и данных. В первом случае управляющие данные передаются в одном потоке с основными данными, а во втором — для передачи данных и метаданных используются разные каналы. Типичными представителями этих классов решений являются, например, EMC Invista, Fujitsu Eternus VS900 Virtualization Switch, НР SAN Virtualization Services Platform (SVSP), IBM SAN Volume Controller (SVC), NetApp ACP (Alternate Control Path). А вот корпорация Hitachi реализовала в платформе Universal Storage Platform (USP) несколько иной подход к виртуализации хранения — на основе интеллектуального контроллера. USP использует сетевые соединения SAN и в то же время поддерживает подключение напрямую к хостам. Работая как интеллектуальный контроллер хранения, USP обеспечивает прямой доступ к информации, связанной с исходным и конечным адресом ввода-вывода. Судя по продолжающимся среди специалистов спорам о наилучшем варианте виртуализации хранения, универсальное решение пока не найдено.
Будущее сетей хранения многие аналитики связывают с Ethernet, поскольку решения на основе этого стандарта оказываются не только эффективны в части сетевой инфраструктуры, но также проще и дешевле. Так, использование сети 10Gb Ethernet в качестве базовой среды позволяет снизить расходы на приобретение сетевого оборудования примерно на 50%, а расходы на управление сетью сократить на 76%. Лидер сектора систем хранения на базе iSCSI компания Dell предлагает комплексные решения 10Gb Ethernet iSCSI, включая системы Equalogic PS6010xx и PS6510xx.
В ряде случаев Ethernet не может обеспечить требуемые для корпоративных сетей хранения производительность и надежность. В этой связи определенные надежды возлагаются на FCoE (Fibre Channel over Ethernet) как на стандарт, предоставляющий сразу два преимущества. Fibre Channel с большим отрывом лидирует как популярный способ подключения в условиях высокой нагрузки на системы хранения данных, а новый стандарт еще и обеспечивает компаниям преимущества Ethernet без вмешательства в существующие системы хранения данных. Компания NetApp активно участвовала в разработке и продвижении нового стандарта и стала первым поставщиком систем хранения со встроенной поддержкой FCoE (решения NetApp FCoE SAN).
Постепенно занимают свое место в корпоративных системах хранения и твердотельные накопители SSD (Solid State Disk), которые отличаются высокой скоростью чтения/записи и произвольного ввода-вывода IOPS (Input/Output Operations per Second — число операций ввода-вывода в секунду), поскольку базируются на динамической или флэш-памяти. Первым производителем корпоративных хранилищ данных класса high-end, в которых начали применяться твердотельные накопители на флэш-памяти, стала EMC (EMC Symmetrix DMX-4). По данным IBM, применение SSD для хранения активно используемых данных, например, в реляционных базах данных, увеличивает производительность до восьми раз. Результаты тестирования новых разработок этой корпорации для SSD в сочетании с функционалом «интеллектуального размещения данных» (Smart Data Placement) демонстрируют также снижение энергопотребления до 90%. Напомним, что два основных недостатка SSD-устройств заключаются в довольно высокой стоимости и ограничении на количество циклов перезаписи (если речь идет о флэш-памяти). Правда, стоимость полупроводниковой памяти постоянно снижается, а для использования максимального количества циклов записи флэш-памяти используются специальные схемотехнические приемы. Одним из интересных применений твердотельных технологий в системах хранения стали PAM II (Performance Acceleration Module) модули компании NetApp, которые представляют собой семейство интеллектуальных кэшей чтения. Они позволяют оптимизировать производительность систем хранения для файловых служб, систем обмена мгновенными сообщениями, виртуальной инфраструктуры и других сред, связанных с большим числом операций случайного чтения, а также баз данных OLTP.
К числу перспективных технологий многие эксперты относят дедупликацию, которая обнаруживает и исключает избыточные данные в дисковом хранилище. Сокращение холостых обменов данными особенно важно при создании резервных копий. Ведь в результате дедупликации потребности в хранении при тех же самых объемах данных сокращаются наполовину и более, в зависимости от количества избыточных копий. Одним из пионеров продвижения механизмов дедупликации в решениях хранения и резервного копирования данных, по праву, считается компания NetApp. Отличительной особенностью ее решений стала глубокая интеграция с ОС Data ONTAP, вследствие чего удается существенно повысить эффективность механизмов дедупликации. Кроме того, решения NetApp V-Series позволяют применять технологию дедупликации NetApp для уменьшения объема избыточных данных на системах других производителей.
Интерес к технологии дедупликации в последнее время значительно вырос в связи с широким внедрением виртуальных ленточных библиотек VTL (Virtual Tape Library), которые стали фундаментальным элементом инфраструктуры дата-центров. Так, в IBM System Storage TS7650G ProtecTIER Deduplication Gateway сочетается виртуальная ленточная библиотека и оперативная дедупликация данных с помощью запатентованной IBM технологии HyperFactor. В составе своих продуктов корпорация НР предлагает два типа дедупликации: динамическую и ускоренную. Причем если первая предлагается в составе продуктов НР StorageWorks D2D Backup System, позиционируемых для удаленных офисов, средних компаний и небольших дата-центров, то второй тип ориентирован на виртуальные библиотеки HP Virtual Library Systems, предназначенные для крупных организаций. А вот в портфеле EMC имеется полностью виртуализированное решение по резервному копированию и восстановлению, сочетающее дедупликацию данных с эффективностью виртуальной инфраструктуры VMware — EMC Avamar Virtual Edition for VMware.
Одним из наиболее важных стимулов для развития виртуализации стала потребность в многоуровневом хранении, при котором данные с учетом их ценности для бизнеса можно размещать, либо на твердотельных дисках (SSD), либо на скоростных накопителях Fibre Channel и/или Serial SCSI (SAS), либо на более дешевых накопителях SATA, ну и, наконец, в долговременном архиве (на магнитных лентах). Например, благодаря перемещению всего 10% данных, к которым часто обращаются пользователи, с жестких дисков с интерфейсом Fibre Channel на SSD-накопители, клиенты смогут увеличить производительность на рабочих нагрузках с большим объемом транзакций в разы. Кроме того, появляется возможность оптимизации расходов на покупку дисков, а также уменьшения энергопотребления за счет переноса редко используемых данных на ленту. Использование технологий виртуализации позволяет дисковым массивам эмулировать ленточные библиотеки для реализации схемы резервного копирования D2D (disk-to-disk) или D2D2T (disk-to-disk-to-tape), которая существенно ускоряет процедуры такого копирования и восстановления данных. Так, ETERNUS CS от компании Fujitsu Technology Solutions обеспечивает интеллектуальную защиту резервных корпоративных данных. Это решение хранения данных поддерживает функцию dual-target, что позволяет использовать все преимущества дисков и магнитной ленты, автономно сохраняя все резервные данные на различные носители в соответствии с установленными политиками. При этом технология дедупликации данных используется во всей линейке ETERNUS CS.
Таким образом, особенность многоуровневых систем хранения заключается в том, что данные, в зависимости от их актуальности, размещаются на различных носителях. Чем менее востребованы данные, тем менее производительные и более экономичные носители требуются, благодаря чему удается значительно сократить затраты. Подобная оптимизация хранения наиболее востребована в крупных информационных системах, где общий объем используемых данных измеряется терабайтами. Внедрение технологии иерархического управления носителями (HSM, Hierarchical Storage Management) на предприятии, как правило, является начальной стадией реализации стратегии управления жизненным циклом информации (ILM, Information Lifecycle Management).
В целях использования преимуществ SSD-технологии в многоуровневых системах хранения данных на базе IBM System Storage DS8700, корпорация расширила способность этих систем хранения определять данные, редко востребованные пользователями, и данные, к которым они обращаются часто, и автоматически перераспределять соответствующую информацию между твердотельными дисками и традиционными жесткими дисками. Такое автоматическое перераспределение данных может помочь оптимизировать их размещение между «уровнями» накопителей системы хранения, которых отличает разная цена и производительность, помогая клиентам более эффективно сбалансировать соотношение этих двух характеристик.
В конце 2009 года EMC представила свою концепцию полностью автоматизированного управления многоуровневым хранением данных — FAST (Fully Automated Storage Tiering). Новая технология должна помочь компаниям повысить эффективность управления информацией и обходиться меньшим количеством ресурсов, а также сократить потребление электроэнергии, сэкономить на кондиционировании за счет меньшего тепловыделения и сократить капитальные и операционные затраты на системы хранения данных.
Перейти на главную страницу обзора