Платформа разметки данных от «Наносемантики»
Компания «Наносемантика» представила обновленный сервис для разметки данных «Маркер», который используется как инструмент подготовки датасетов для машинного обучения и создания на их основе нейросетей. В релизе представлены новые функции технологии Active Learning для более удобной работы с изображениями, добавлены инструменты для разметки медицинских сканов, а интерфейс улучшен для работы с командами разметчиков-асессеров.
Основные изменения коснулись интерфейса платформы. Теперь у «Маркера» есть англоязычная версия и более широкие возможности визуализации размеченных данных.
Новые функции появились у технологии Active Learning, ускоряющей работу разметчика за счет параллельного обучения, – встроенная в «Маркер» нейросеть «наблюдает» за действиями асессера, после чего начинает самостоятельно «видеть» нужные данные. Добавлены новые инструменты Magic Wand и One-Shot, которые позволяют достичь более высокой скорости разметки данных при работе с изображениями. Magic Wand автоматически выделяет объект и минимизирует необходимость ручной корректировки. One-Shot позволяет выбрать нужный объект на эталонном примере, после чего нейросеть начнет самостоятельно находить аналогичные объекты на других изображениях.
«Маркер» позволяет настраивать инструмент очень тонко, что помогает сервису «узнавать» совсем небольшие детали в материалах. Новые алгоритмы, по данным разработчиков, в разы экономят время разметчиков, сокращая стандартный процесс с 2 мин до 0,5 с.
Еще одно важное обновление – поддержка платформой формата данных dicom, который используется в медицинских сканированиях. Новый интерфейс позволяет перемещаться по срезам изображения и использовать «Маркер» для «умных» решений в медицине.
Для работы с аудиоданными в «Маркер» интегрировали нейросетевую модель для автоматической транскрибации голоса в текст, что экономит время разметчиков, которые могут брать в работу уже почти готовый текст, а не расшифровывать его полностью с нуля. Новые инструменты – нарезка аудиозаписи на нужные фрагменты и устранение шумов – делают процесс разметки более удобным, а результат более качественным.
Улучшена логика управления проектами в «Маркере»: теперь задания можно группировать в коллекции, что облегчает процесс распределения задач между разметчиками. Специалисты могут видеть все этапы выполнения работы и сразу отмечать моменты, требующие корректировки.
В будущем разработчики планируют внедрить расширенную статистику для отображения выполненных специалистами заданий. Это позволит детально оценить эффективность каждого сотрудника и оптимизировать управление рабочими процессами.
Как комментируют в «Наносемантике», платформа «Маркер» была создана, чтобы облегчить клиентам важный и дорогостоящий этап создания нейросетей – разметку данных. В компании на собственном опыте поняли, что от качества датасета зависит конечный продукт, будь то привычный чат-бот или продвинутый цифровой двойник. Самые продвинутые языковые модели сегодня требуют привлечения тысяч профессиональных разметчиков, что съедает большую долю бюджета проектов и повышает планку доступа к технологиям ИИ. Частичная автоматизация процесса разметки данных за счет технологии активного обучения нейросети многократно снижает расходы на асессеров.