ИИ-сервис Сбера для корректуры текстов
Сбер представил разработанный компанией SberDevices ИИ-сервис, который представляет собой инструмент для проверки орфографии в текстах на русском языке, работающий на основе нейросетевой генеративной модели. Решение может быть использовано для корректуры текста любой длины и формата – в копирайтинге и редактуре, при создании маркетинговых и рекламных материалов, в работе редакций СМИ. Сервис доступен в каталоге AI Services на платформе ML Space для зарегистрированных пользователей.
Перед командой разработчиков, поясняют в Сбере, стояла задача изучить и решить проблемы корректуры правописания с помощью генеративных моделей. Результатом стала разработанная методология генеративной коррекции орфографии для русского языка, которая показывает качество уровня SOTA на задаче проверки орфографии. По итогам работы выпущены библиотека SAGE с открытым исходным кодом (лицензия MIT), семейство предобученных генеративных моделей (ruM2M100-1.2B, ruM2M100-418M, FredT5-large-spell, T5-large-spell) для корректуры правописания на русском и английском языках и хаб с размеченными данными для задачи коррекции орфографии в текстах разных доменов.
На данный момент, отмечают в Сбере, представленный инструмент опережает по качеству открытые решения для русского языка и проприетарные модели конкурентов. Существенный прирост в метриках относительно других решений – результат разработанной методологии. Было предложено два метода аугментации ошибок для воспроизведения естественных человеческих опечаток и орфографических ошибок в текстах. С помощью этих модулей был создан корпус текстов с ошибками (около 7 Гбайт), на котором обучались генеративные модели M2M100 и FredT5-large. Второй этап заключался в дообучении моделей на комбинации собранных параллельных датасетов для исправления орфографии. Лучшая конфигурация полученного решения представлена в виде AI-сервиса на платформе ML Space.