Новый метод анализа качества данных разработан в IBM Research
IBM Research, исследовательская организация корпорации IBM, разработала алгоритмический метод, который на два порядка уменьшает вычислительную сложность, расходы и потребление электроэнергии при анализе качества больших объемов данных. Новый метод поможет предприятиям быстрее и эффективнее извлекать и использовать данные для создания более точных и лучше прогнозирующих моделей.
В эксперименте исследователи IBM использовали суперкомпьютер Blue Gene/P – развернутый в научно-исследовательском центре города Юлих, Германия (Forschungszentrum Julich) и занимающий четвертую позицию в рейтинге самых мощных вычислительных систем в мире, – для проверки достоверности 9 Тбайт данных. Суперкомпьютер справился с этой задачей менее чем за 20 мин, причем без ущерба качеству. Решение подобной задачи при использовании существующей типовой методики на той же системе потребует более одного дня. Кроме того, в эксперименте расход электроэнергии составил всего 1% от обычного уровня энергопотребления этого вычислительного процесса.
Анализ огромных массивов постоянно накапливающихся данных – это сложнейшая задача, которую приходится сегодня решать в целом ряде прикладных областей науки, техники и бизнеса. Одним из наиболее критичных и требующих большого объема вычислений факторов в аналитике считается измерение качества данных, показывающее, насколько надежны (или достоверны) данные, которые используются при анализе или генерируются аналитической моделью. Во многих прикладных областях, от организации дорожного движения и ведения финансовых операций до управления водными ресурсами, новый метод, разработанный учеными IBM, может проложить путь к созданию более мощных, комплексных и точных моделей с расширенными возможностями прогнозирования.
К примеру, в цепочках поставок возникает множество проблем, связанных с логистикой, таких как высокая интенсивность движения и пробки на дорогах, дорожные работы и неблагоприятные дорожные условия. Эти проблемы часто приводят к срывам сроков поставки товаров. Многообразие поставщиков и конечных получателей товара, наряду с разнообразными транспортными схемами, способами перевозок и сроками поставок, делают число проблем и переменных факторов практически бесконечным. Используя данные глобальной системы навигации (GPS) и дорожных датчиков, информацию из баз данных поставщиков и прогнозы потребительского спроса, аналитика может помочь в принятии более взвешенных оперативных решений в тех случаях, когда возникают непредвиденные затруднения.
Новый метод, продемонстрированный учеными IBM, уменьшает вычислительную сложность и обладает очень хорошими характеристиками масштабируемости, что позволяет работать «на полную мощность» суперкомпьютеру JuGene в Юлихе, с его 72 аппаратными стойками системы IBM Blue Gene/P, 294912 процессорами и пиковой производительностью в 1 PFLOPS.