Прототип системы хранения и поиска по геномным хранилищам
Компания Dell EMC объявила на конференции «Интернет ДНК» о том, что ее российский R&D-центр в Сколково создал прототип платформы для хранения и поиска среди различных типов данных – геномных вариантов, описаний, сделанных врачом, электронных медицинских карт, медицинских справочников и классификаторов (онтологий), постоянно растущих баз ассоциаций между геномными параметрами, симптомами болезни, результатами лечения.
Программных средств, позволяющих эффективно работать со столь различными типами данных одновременно, быстро определять прямые или непрямые связи между ними, сегодня не существует. Текущий прототип – важный шаг на пути создания такого инструмента. Проект предусматривает создание такой инфраструктуры, которая даст возможность врачам и исследователям находить ценную для лечения информацию, анализировать ее и обмениваться ею. Один из компонентов, лежащих в основе решения, iResearch, выложен в открытый доступ.
Работа прототипа была протестирована в рамках совместного проекта с Центром интегральной диагностики больницы Массачусетса в Бостоне (Massachusetts General Hospital) и объединением Partners Healthcare. Выбор партнеров для тестирования основывался на определенных факторах, необходимых для качественной работы платформы: наличие реального практического опыта применения генотипирования в онкологии для предсказания выживаемости пациентов и для рекомендации методов лечения; баз данных из нескольких тысяч случаев; возможности интеграции с электронными картами, чтобы отслеживать дальнейшую судьбу пациентов.
Размер тестового набора данных составляет 400 Гбайт данных (2,5 тысячи образцов генома, 450 млн вариантов), достигнута скорость поиска, позволяющая отвечать в рамках секунды на запросы по индексируемым полям. Команда Dell EMC R&D продолжает работу над обеспечением надежного хранения данных, интеграцией с публичными источниками данных, а также упрощением системы для врачей, чтобы сделать ее максимально удобной.
После секвенирования генома человека для следующего прорыва в биомедицине исследователям и клиницистам необходимо получить возможность сравнивать геномные данные пациентов с данными других людей по всему миру. ДНК людей нашей планеты совпадает примерно на 99,9%, генетическое отличие составляет всего 4–5 млн пар нуклеотидов. Разница в 0,1% при сравнении данных генома нескольких людей позволяет объяснить вероятность развития глаукомы, влияние генетических мутаций при раковых заболеваниях и много другое.
Многие генетические вариации человека относительно редки, поэтому важно рассматривать сотни, тысячи и даже миллионы человек для анализа. Прежде всего это касается онкологических и редких болезней. К примеру, мутации в генах BRCA1 и BRCA2 могут приводить к повышенному риску возникновения рака молочной железы. В среднем один из 800 человек имеет мутацию в одном из этих генов. Чтобы понять, какие из этих мутаций патогенны, необходимо проанализировать выборки пациентов. Генетические данные хранятся в медицинских и научных организациях по всему миру, имеют разные форматы и структуру. Объединив всю эту информацию, ученые могут найти ключи к лечению многих болезней.