Byte/RE ИТ-издание

Проблема выявления знаний в насыщенном информацией мире

Александр Антонов,
начальник отдела поисковых систем корпорации "Галактика"
alexa@galaktika.ru

Суть проблемы

Информационный мир – это зеркало нашего, физического мира. Значит, изучая этот информационный мир, можно сделать ценные выводы.

И, как и в реальном мире, преимущество получает тот, кто сможет узнать не только то, что общедоступно и лежит на поверхности, выражено явным образом. Огромные пласты знания рассеяны по тысячам документов, в каждом из которых скрыта крохотная частичка необходимой кому-то информации.

В результате важные решения принимаются на основе недостаточных, неполных данных. По результатам исследования фирмы IBM, решения топ-менеджеров основаны только на 7% необходимой информации. При этом в целом недостатка в информации нет, многие говорят об "информационной усталости", популярен также термин "информационное загрязнение".

А дело здесь в том, что довольно большая часть знания пребывает в скрытом, неявном виде. По этой причине ощутимая часть средств управления знаниями посвящена переводу знаний из их наиболее распространенной, неявной формы в явную. Только после этой процедуры с этими знаниями можно работать.

Самая информативная и самая трудная для автоматического анализа составляющая информационного мира – собственно контент, т. е. текст, изложенный на обычном человеческом языке.

В информационном мире все действия оставляют следы. Однако мало просто собрать
гигабайты и терабайты информации. Найти среди следов нужный, выяснить, куда
только что пробежала "толпа", что ее там притягивает, определить, двигалась
ли она вообще куда-нибудь, – вот малая часть задач, которые могут волновать
пиарщика или журналиста, маркетолога или эсбэшника. И все это – примеры задач
выявления знаний.

 

"…Роль аналитики заключается в переходе от реактивной (анализа того,
что уже произошло) к проактивной (управлению деловыми решениями). Мы верим,
что деловая аналитика развертывается в сторону технологий, прогнозирующих
в реальном времени".

Scott Phillips, Merrill Lynch, March 6, 2001.

Инструменты решения

Есть всем известные инструменты перевода неявных знаний в явные. К ним можно отнести инструменты изучения общественного мнения. Стоит напомнить, как недешево стоят подобные исследования и как дорого обходятся их ошибки.

Но эффективность таких измерений при всей адресуемой им критике довольно велика. Известно, какие страсти бушуют вокруг публикаций рейтинга политиков. Рейтинг телеканалов напрямую определяет потоки больших денег рекламодателей.

Применяются подобные методы и в информационном мире. В Сети – на любом новостном сайте или сайте Интернет-газеты, а часто и на обычной страничке постоянно проводят самые разные опросы. Однако методика опросов хороша только для простых вопросов. Она работает только как индикатор "Да – Нет", но не дает комплексной картины ситуации. К тому же проведение "живых" опросов требует серьезных затрат и привлечения больших людских ресурсов, следовательно, не может использоваться достаточно часто. Притом существуют группы людей (например, руководители), прямой опрос которых максимально затруднен.

Можно добавить, что этот инструмент влияет на отклик. В качестве примера предложим
дать ответ на вопрос о решении чеченской проблемы в различных формулировках.
Вот три варианта одного и того же по содержанию вопроса.

  1. Вы согласны с тем, что с терроризмом в России должно быть покончено?
  2. Вы против антитеррористической военной акции в Чечне?
  3. Как Вы думаете, стоит ли проливать кровь российских солдат в Чечне?

Нетрудно спрогнозировать распределение ответов при разных вариантах.

Анализ текстов – инструмент, подобный опросам, только опрашиваются в нем не люди, а документы. Недаром такие исследования входят в реестр услуг, предоставляемых организациями, которые занимаются изучением общественного мнения.

Нельзя сказать, что в этом методе отсутствуют недостатки. Документы нельзя переспросить, что-то уточнить, у них, в отличие от их авторов, раз и навсегда определенная позиция (впрочем, последнее может оказаться преимуществом). Результаты исследования сильно зависят от выборки документов – не зря все большие аналитические конторы стремятся увеличить свою текстовую базу. Например, у Фонда эффективной политики база данных составляет миллионы документов и ежедневно увеличивается на 15 тыс. документов.

При этом невозможно отрицать более высокую объективность такого исследования (в смысле отсутствия влияния), возможность проверки – инвариантность, потенциальную относительную дешевизну и комплексность.

Кроме того, отметим возможность работы в реальном времени – ведь от скорости решения задач зависит актуальность рекомендаций, следовательно, смысл самой работы по их решению.

Пример построения такого инструмента – технология "БИО-Зум" (БИО – большие информационные объекты, Зум = Zoom, изменение фокусного расстояния системы линз). Она реализует идею текстового анализа большого объема текстов за реальное время (примерно тысяча документов за секунду). Такая технология выявления знания позволяет быстро "влезть" в незнакомую проблематику, получить основную начальную информацию для более глубокого исследования, сравнить несколько исследуемых объектов.

При этом уходит риск пропустить что-то, "о чем говорят все". Конечно, качество полученного нового знания напрямую зависит от качества и объема текстовой базы. Нельзя требовать от системы освещения вопросов садоводства, если в ней лежат документы по нейрохирургии.

Примеры решения

Технология "БИО-Зум" реализована в коммерческом продукте "Галактика-ZOOM" корпорации
Галактика (http://www.galaktika.ru, http://zoom.galaktika.ru).
"Галактика-ZOOM" работает в среде Microsoft Windows 2000 Server – IIS 5.0, требует
не менее 512 Мбайт оперативной памяти. Реальные результаты при выявлении знаний
достигаются при объеме базы не менее 50 Мбайт текста. Продукт эксплуатируется
в телекомпаниях РТР, НТВ, государственных организациях (ЦИК, ФСБ), коммерческих
фирмах.

Приведем два примера для иллюстрации того, как система "Галактика-ZOOM" формирует информационный портрет исследуемого информационного массива в терминах "БИО-Зум". В отличие от классического контент-анализа в информационном портрете приводятся значимые слова, т. е. характеризующие отличие данной выборки от других. Эта процедура называется относительным контент-анализом.

Пример первый – тема регионов

База – статьи из СМИ (газет и журналов) за 2000-2001 гг. Выбраны документы, удовлетворяющие запросу: Ростов-на-Дону и инвестиции (примерно 1,5 тыс. документов).

Система формирует следующий информационный портрет (здесь для экономии места
приведены только слова, система дает еще словосочетания).

Ростов и инвестиции

ИНВЕСТИЦИОННЫЙ ХОЛДИНГ ВОЛГОГРАДСКИЙ
ОАО ВОЗРОЖДЕНИЕ КОРПОРАТИВНЫЙ
ИНВЕСТОР ОБЛИГАЦИЯ ТАГАНРОГСКИЙ
ДОНСКОЙ АЭС МАЛОЕ
НИКОЙЛ РОСТСЕЛЬМАШ ИНВЕСТИЦИОННО-БАНКОВСКАЯ
ЧУБ АГРОПРОМЫШ-ЛЕННЫЙ БИРЖА
ЮГ ОПЕРАТОР ТЕЛЕКОМИНВЕСТ
КОМБАЙН ПОРТ АТОМНЫЙ
ДОН МОЩНОСТЬ МТС
БАЛТИКА РОСТОВУГОЛЬ ЗЕМЕЛЬНЫЙ
СУБЪЕКТ РЕСТРУКТУРИЗАЦИЯ МЕГАФОН
ЗЕРНО АПК ВЫМПЕЛКОМ
КРАСНОДАРСКИЙ ПИВОВАРЕННЫЙ ПОТЕНЦИАЛ
СЕЛЬСКО-ХОЗЯЙСТВЕННЫЙ ПИВО СОТОВЫЙ

Списки ранжированы по убыванию значимости (числовому коэффициенту соответствия
выборке) сверху вниз, а затем слева направо. В списках выделены (вручную) названия
организаций (НИКОЙЛ), персоналии (ЧУБ), направления инвестирования
(ЗЕРНО).

Теперь проведем такую же операцию с документами по запросу: "Волгоград и инвестиции" (около 2 тыс. документов).

Волгоград и инвестиции

ВОЛГОГРАДСКИЙ МЕСТОРОЖДЕНИЕ НИКОЙЛ
ОАО ТРУБНЫЙ НЕФТЕГАЗОВЫЙ
ЛУКОЙЛ ГАЗПРОМ САРАТОВСКИЙ
ИНВЕСТИЦИОННЫЙ ХОЛДИНГ АЛЕКПЕРОВ
НЕФТЬ ГАЗ АЛЮМИНИЙ
ВОЛЖСКИЙ ПОДШИПНИКОВЫЙ ОСВОЕНИЕ
ВЗБТ ТРАНСПОРТНЫЙ ОСВОБОДИТЬ
САВЧЕНКО МОЩНОСТЬ РОСТОВСКИЙ
АСТРАХАНСКИЙ ВТЗ ТРАКТОРНЫЙ
НЕФТЯНОЙ ПОРТ СЫРЬЕ
ИНВЕСТОР РЕКОНСТРУКЦИЯ ШИННЫЙ
ЗАО МАКСЮТА СЕЛЬСКО-ХОЗЯЙСТВЕННЫЙ
АКЦИОНЕР ДОБЫЧА ЧУКОТКА
СИБУР ХИМПРОМ  
ОБЛИГАЦИЯ МАШИНОСТРОЕНИЕ  

Подчеркнуты общие для обоих портретов объекты. Видно, что в Ростове лидируют
НИКОЙЛ и БАЛТИКА, в Волгограде – ЛУКОЙЛ и ВЗБТ (завод буровой техники). При
сравнении объектов видно, что общие для них – ПОРТ и НИКОЙЛ. В Волгограде основная
деятельность – РЕКОНСТРУКЦИЯ, в Ростове – РЕСТРУКТУРИЗАЦИЯ.

Система выдала эти таблицы через несколько секунд работы. Еще несколько минут ушло на разбор информации.

Картина получилась довольно пестрая, неполная, но как начальная информация она вполне годится и, в общем, соответствует действительности. Далее, пользуясь вышеприведенными данными как рубрикатором, можно двигаться вглубь, изучая материалы, опрашивая экспертов и делая новые выборки.

Пример второй – проблема наркомании

Попробуем изучить проблему в динамике на протяжении последних двух лет. База аналогичная – документы из СМИ за 1999 — 2001 гг. Выбраны документы, удовлетворяющие запросу "Наркотики" (примерно по 3 тыс. документов в месяц).

Вот верхняя часть получаемых таблиц.

1999-1-2кв 1999-3-4кв 2000-1-2кв 2000-3-4кв 2001-1кв
ГЕРОИН ГЕРОИН ГЕРОИН ГЕРОИН ГЕРОИН
ПОДРОСТОК СПИД СПИД СПИД СПИД
ПРЕСТУПНОСТЬ ПОЧТОВЫЙ ПОДРОСТОК ПОЧТОВЫЙ ПОДРОСТОК
НЕСОВЕРШЕННО-ЛЕТНИЙ ПОДРОСТОК ПОДРОСТКОВЫЙ ПОДРОСТОК ВЛЕЧЬ
СПИД НЕСОВЕРШЕННО-ЛЕТНИЙ ПРЕСТУПНОСТЬ ОТПРАВЛЕНИЕ ВИЧ
ПОДРОСТКОВЫЙ НЕЗАКОННЫЙ НЕЗАКОННЫЙ ВИЧ ПРАВОНАРУ-ШЕНИЕ
НЕЗАКОННЫЙ ПРЕСТУПНОСТЬ ДОЗА ВИЧ-ИНФИ-ЦИРОВАННЫХ АДМИНИСТРА-ТИВНЫЙ
ПРЕСТУПНЫЙ ИЗЪЯТЬ БОЛЬНОЙ НЕЗАКОН-НЫЙ НЕЗАКОН-НЫЙ
МАРИХУАНА ПРЕСТУПНЫЙ ВЕЩЕСТВО ИЗЪЯТЬ ПРОФИЛАК-ТИКА
КРИМИНАЛЬНЫЙ ПОДРОСТКО-ВЫЙ ПРЕСТУПНЫЙ ПОДРОСТКО-ВЫЙ ПОДРОСТКО-ВЫЙ
ИЗЪЯТЬ ГЕПАТИТ ПРОФИЛАК-ТИКА ПРОФИЛАК-ТИКА ИЗЪЯТЬ
КОКАИН КРИМИНАЛЬ-НЫЙ КОКАИН ШПРИЦ РАСЧЕТНЫЙ
УБИЙСТВО БАНДИТ МАРИХУАНА ГЕПАТИТ ВИЧ-ИНФИ-ЦИРОВАННЫХ
ЗЕЛЬЕ БОЛЬНОЙ ИЗЪЯТЬ БОЛЬНОЙ АЛКОГОЛИЗМ
ПРЕСТУПНИК КОКАИН ВИЧ-ИНФИЦИРО-ВАННЫХ МАРИХУАНА ШТРАФ
БОЛЬНОЙ НАЛОЖЕНИЕ ЛЕЧЕНИЕ КРАЖА ПРЕСТУП-НОСТЬ

Из всего списка исследуем сопутствующие наркотикам преступления (взяты из списка
выше): КРАЖА, РАЗБОЙ, КОНТРАБАНДА, УБИЙСТВО, ГРАБЕЖ, ПРОСТИТУЦИЯ. На рисунке
приведен показатель значимости для первых трех терминов.

Fig. Динамика значимости сопутствующих наркомании преступлений за несколько лет.


Видно, что из сопутствующих преступлений сильно растет число краж. Контрабанда и разбой остаются примерно на одном уровне. Аналогичный график показывает, что растет также число убийств и грабежей; растет и проституция, правда, заметно медленнее, чем кражи.

Из этих данных видно, что рост наркомании ведет не столько к росту контрабанды наркотиков, сколько к росту преступности практически во всех проявлениях. Дальнейшие выводы очевидны.

В заключение нужно отметить, что, конечно, можно получить гораздо более полное представление о предмете, просто читая материалы исходных документов, без всяких систем выявления знаний. Однако объем выборок даже в пару тысяч документов переводит задачу на другой уровень.

Есть два пути: ограничить волевым путем объем выборки (например, выбрать случайным образом столько документов, сколько сможете прочесть) или поручить анализ группе аналитиков. Правда, в последнем случае возникает отдельная задача сведения мнений разных людей (эта задача также имеет отношение к управлению знаниями), а в первом случае велик риск пропустить что-то важное. И для обоих решений характерны большие затраты времени. В конце концов, можно пройти из Москвы во Владивосток пешком, но большинство летят самолетом.

Ситуация с системами управления знаниями пока обратная (мы больше привыкли
ходить пешком по огромным информационным пространствам), но она меняется, пусть
не очень быстро. Ведущие агентства предсказывают рост рынка аналитического инструментария
на 30% в год.

 

Комментарий редакции

Андрей Колесов

Может быть, кто-то из читателей удивится: "С чего это корпорация "Галактика",
которая всегда занималась разработкой ПО для комплексной автоматизации
предприятий, занялась технологиями извлечения знаниями?" Однако ответ
тут довольно очевиден: для эффективного управления крупными предприятиями
в современных условиях требуется глубокий анализ разнообразной внешней
информации. ERP-системы решают проблемы оперативного управления, средства
анализа внешней информации помогают планировать развитие бизнеса и оперативно
реагировать на происходящие внешние изменения.

Новое направление продуктовой линейки под названием Галактика-ZOOM" было
анонсировано в сентябре 1999 г. При этом подчеркивалось, что оно возникло
не на пустом месте: команда разработчиков под руководством Александра
Антонова имела к тому времени уже восьмилетний опыт создания и внедрения
поисковых и лингвоаналитических систем. В силу обстоятельств я все эти
годы в какой-то степени был в курсе этой деятельности и даже в начале
1999 г. имел возможность познакомиться с практическим применением данных
технологий на телеканале НТВ (http://www.visual.2000.ru/kolesov/infobusi/99222kis.htm).

В те времена вопросы создания электронных архивов очень горячо обсуждались
на различных ИТ-мероприятиях. Однако создавалось впечатление, что дальше
разговоров дела в этом направлении пока не двигались. На вопросы к потенциальным
пользователям: "Что же вам мешает начать использовать подобные технологии?"
следовал неизменный ответ – "Отсутствие денег". Действительно, внедрение
таких систем автоматически ассоциировалось с необходимостью покупки ПО
и оборудования на сотни тысяч долларов, не говоря уже о затратах по внедрению,
сопровождению и т. п.

И вот я пришел три года назад в одну из комнат НТВ, где размещалась тогда
информационно-справочная служба канала (аналогичные подразделения с использованием
той же технологии были тогда и у других центральных телеканалов). По словам
ее руководителя, тут находился один из крупнейших полнотекстовых электронных
архивов России того времени (больше, чем русскоязычные ресурсы Интернета
на тот момент) – материалы отечественных СМИ с начала 90-х годов (3 млн
документов общим объемом 8 Гбайт с ежедневным пополнением в 3 — 4 тыс.
документов). Что меня больше всего удивило: все это работало на трех ПК
обычной офисной конфигурации, объединенных в одноранговую сеть (архив
хранился на обычных компакт-дисках), а в подразделении работали всего
три человека вместе с начальником.

Да, все это не было похоже на картины, которые появлялись на презентациях
современных технологий создания электронных архивов. Но все это работало
и уже тогда было одним из неотъемлемых компонентов такого сложного и динамичного
механизма, как телевидение. (Речь, конечно, в первую очередь об информационно-аналитических
передачах, хотя сейчас такими архивами пользуются, например, и авторы
различных ток-шоу.) Вот как тогда определил достоинства подобных технологий
известный телеобозреватель Владимир Лусканов: "Они обеспечивают качественную
информационную подготовку передач: не упустить главное и выявить скрытые
пружины сложных процессов".

Приведу еще небольшой рассказ Елены Олейниковой, редактора программы
"Вести-Москва", РТР.

"Отчаяние, которое возникает, когда за десять минут до эфира надо понять,
зачем президент может неожиданно поехать в Новосибирск, – вот основная
причина, по которой мы – информационная программа "Вести" – решились в
1995 г., накануне очередных (с весьма неопределенным результатом) выборов,
начать работать с этим самым "компьютером". Кстати, раньше других российских
телекомпаний.

В 1999 г., когда как минимум две предвыборные кампании (время для СМИ
и соответствующих справочно-аналитических структур самое горячее), мы
перешли на новую версию "Галактики-ZOOM", в которой обнаружили ряд полезных
новшеств по сравнению с ранее эксплуатировавшейся системой "Нота-Пи".
Например, появилась возможность узнать о нескольких текстах из базы, что
их объединяет, чем они отличаются от всех других (в пределах базы, конечно),
построить "информационный портрет". Другая замечательная вещь – возможность
посмотреть на явление в динамике.

Практическое использование этих функций (впрочем, это касается любых
форм анализа) затруднено тем, что для человека комфортнее работать со
связным текстом на естественном языке. Здесь же мы должны уметь понимать
другой тип знаковой системы – таблички, состоящие из слов (сочетаний слов)
с численными характеристиками. Смущает еще вот что – получаемые данные
зависят от исходного корпуса текстов, а также адекватности грамматического
описания, заданного в системе, и главное – математической модели, используемой
для анализа статистических данных.

Вот пример из описания некоторых российских регионов: Свердловская, Новосибирская,
Новгородская, Самарская области. Оказалось, что губернатор есть только
в Свердловской области, а малое предпринимательство – в Новосибирской
(т. е. об этих объектах упоминается в СМИ достаточно часто для того, чтобы
это нашло отражение в списке значимых слов).

Когда первый раз смотришь на "информационный портрет", кажется, что такой
список слов с цифрами тривиален и неинформативен. Впечатления такие: "Это
и так известно. Как это практически использовать?" Но все это стандартные
претензии к статистическим данным. Люди научились использовать статистические
показатели в экономике и финансах. Применять точные методы для интерпретации
гуманитарных знаний сложнее. Всегда что-то самое главное остается за скобками.
Тайну возникновения языка мы будем познавать вечно, тем не менее удобно
расположить буквы на клавиатуре печатной машинки помогла статистика".

Вам также могут понравиться