Нейросеть Positive Technologies для поиска вредоносного кода
Компания Positive Technologies представила нейросеть для обнаружения вредоносного кода. Модель ByteDog основана на архитектуре «трансформер», которую используют LLM (большие языковые модели). В отличие от классических моделей, ByteDog работает не с текстом или изображениями, а анализирует и понимает файлы как они есть – в виде байтов. Это позволяет ей определять вредоносное ПО на 20% точнее, чего раньше не смогла достичь ни одна классическая модель машинного обучения. Это первая подобная разработка в России и Европе.
До сих пор ИИ при использовании в кибербезопасности требовал ручной подготовки данных под каждый новый вид вирусов: разметчики извлекали из файлов признаки (опкоды, подстроки, структуру импортов), по которым нейросети учились отличать вредоносный код от обычного. ByteDog убирает этот этап. После обучения модель анализирует байты файла напрямую – в том же виде, как они хранятся на ПК, смартфоне, в облаке или интернете. ByteDog способна сама учиться находить закономерности, экстраполировать их и обнаруживать угрозы, которые ранее не встречались в данных. Этим она превосходит системы, основанные на жестких, фиксированных правилах. Примерно так же LLM учатся понимать текст, не зная заранее грамматических правил: они обрабатывают последовательности символов и выстраивают внутренние представления о структуре языка. Только вместо слов и предложений здесь обычные файлы.
Главная техническая сложность при разработке, поясняют в компании, – это длина входных данных. Если большая языковая модель работает в среднем с контекстом до 128 тыс. токенов, то обычный файл – это миллионы байт, ни один из которых нельзя пропустить. Для решения этой проблемы модель анализирует файлы фрагментами, а затем собирает общую картину. ByteDog спроектирована так, что для применения уже обученной модели не нужен графический ускоритель, и она может работать на устройствах пользователей – ПК и смартфонах.
Как комментируют в компании, обучение и тестирование ByteDog проводилось на образцах из реальных киберинцидентов в течение года. По данным Positive Technologies, модель продемонстрировала лучшие результаты по сравнению с классическими ML-моделями по качеству детектирования и скорости анализа – разница составила более 20%.