Поиск в графических документах для Microsoft Office SharePoint Server

--> Дата: Июл 16, 2010 45

В современном мире, где инновации обеспечивают успешность предприятия, оперативный доступ к информации и накопленным знаниям становится сильным конкурентным преимуществом. Именно поэтому системы корпоративного поиска набирают всё большую популярность: они позволяют быстро находить нужные данные в корпоративной сети и многократно использовать их в работе. Более того, если необходимый документ невозможно быстро найти, то он фактически утерян, даже несмотря на то что формально он хранится в каком-то из архивов. Таким образом, зачастую крупные организации сталкиваются с отсутствием оперативного доступа к корпоративной информации. Чтобы найти необходимые документы в электронных архивах компании, сотрудникам приходится прикладывать значительные усилия, что повышает временные издержки, соответственно снижая эффективность работы.

Клиенты хотели бы получать доступ ко всей нужной информации из любого места и с любого устройства, используя простой и знакомый интерфейс офисных приложений. Поэтому идеология корпорации Microsoft в области поиска состоит в том, чтобы объединить всех сотрудников компании и всю необходимую для их работы информацию – вне зависимости от того, где и в каком формате она хранится. Так, семейство продуктов Microsoft SharePoint в числе прочего предлагает мощный сервис корпоративного поиска, позволяющий быстро и гарантированно находить нужную информацию как в структурированных, так и в неструктурированных источниках данных. Схема работы сервиса такова: поисковый агент SharePoint периодически обходит корпоративные библиотеки и автоматически индексирует новые или недавно изменённые документы, после чего они становятся доступными для поиска. Однако не все документы хранятся в форматах, пригодных для полнотекстового индексирования. Важные для организации документы (копии отсканированных договоров, факсы, входящая корреспонденция, а также архивы газет, журналов и книг) нередко сохраняются в графическом виде, что делает поиск по их содержимому невозможным.

Новая разработка компании ABBYY, Recognition Server Ifilter, позволяет поисковым системам Microsoft индексировать графические документы для последующего поиска по их содержимому. Теперь пользователи корпоративной сети смогут легко и быстро находить нужные для работы данные, даже если они хранятся в таких «неудобных» форматах, как TIFF, JPEG, PDF и DjVu. Интегрируясь в поисковый модуль SharePoint, решение ABBYY успешно решает проблему: в его состав входит специальный плагин IFilter, благодаря которому поисковый сервис Microsoft может задействовать программный продукт ABBYY Recognition Server для непосредственного извлечения содержимого из файлов графических форматов.

Напомним, что ABBYY Recognition Server 3.0 – это высокопроизводительное серверное решение для автоматизации процессов оптического распознавания изображений и PDF-файлов, полученных по факсу, со сканера или МФУ (многофункционального устройства). Результатом работы ABBYY Recognition Server 3.0 являются документы в привычных текстовых форматах: Microsoft Word, HTML, PDF и других. Благодаря серверной архитектуре это приложение особенно эффективно для задач, связанных с обработкой больших объёмов документов, как в рамках отдельных департаментов, так и в больших корпорациях.

Текстовые файлы поисковый агент SharePoint индексирует самостоятельно, а для извлечения данных из изображений привлекает решение ABBYY: IFilter передает изображения в ABBYY Recognition Server, система распознаёт документы и затем возвращает распознанный текст в Microsoft SharePoint Server для индексирования. Важно, что обработка изображений не приводит к дополнительной загрузке ресурсов SharePoint: ABBYY Recognition Server устанавливается на отдельный сервер, причём производительность решения может быть в любой момент повышена путём подключения к нему дополнительных мощностей.

Продукт ABBYY Recognition Server создан на базе известных технологий распознавания ABBYY и способен обрабатывать документы на более чем 190 языках. Система успешно «читает» и многоязычные документы, при этом в одном и том же документе могут быть использованы языки различных видов письменности (например, китайский и немецкий, иврит и французский). Решение поддерживает самые популярные графические форматы: TIFF, JPEG, PDF, DjVu, BMP, PCX, DCX и PNG. Таким образом, ABBYY Recognition Server применим не только в процессе индексации документов: он может служить и в качестве удобного инструмента для обработки бумажных и конвертации электронных документов. Стоит отметить, что помимо интеграции с Microsoft SharePoint, ABBYY Recognition Server IFilter может работать и с Microsoft Windows Search, системой локального поиска на компьютере пользователя. Один установленный в корпоративной сети ABBYY Recognition Server позволяет всем сотрудникам организации осуществлять полнотекстовый поиск документов, хранящихся на их компьютерах в виде изображений. При этом все ресурсоёмкие процессы происходят незаметно для пользователей – им становится доступен окончательный результат поиска. На компьютеры сотрудников требуется установить всего лишь лёгкий плагин к Microsoft Windows Search, непосредственная обработка документов будет осуществляться на сервере.

Компания ABBYY продолжает расширять линейку решений для корпоративных поисковых систем (Enterprise Search Systems, ESS) на основе ABBYY Recognition Server: ранее было выпущено аналогичное дополнение для поискового сервера Google Search Appliance (GSA).