Byte/RE ИТ-издание

Датасет для развития рекомендательных систем Yambda – в опенсорс

«Яндекс» объявил о том, что выложил в опенсорс датасет Yambda (YAndex Music Billion-interactions DAtaset) – один из крупнейших в мире датасетов для развития рекомендательных систем. С помощью Yambda исследователи и вузы всего мира смогут тестировать и улучшать рекомендательные алгоритмы.

Датасет представлен в трех вариантах: полная версия содержит 5 млрд данных, уменьшенные – 500 млн и 50 млн. Разработчики и исследователи смогут выбрать тот вариант, который отвечает их задаче и имеющимся вычислительным ресурсам. Данные датасета доступны на HuggingFace.

Как поясняют в «Яндексе», рекомендательные алгоритмы помогают находить нужные товары, фильмы, музыку и др., именно они лежат в основе различных сервисов – от интернет-магазинов до онлайн-кинотеатров. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объемные датасеты. При этом опенсорс-датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают большие объемы данных, редко их публикуют. Это создает разрыв между академическими исследованиями и потребностями бизнеса. Публикация больших открытых датасетов, таких как Yambda, помогает разрешить эту проблему, подобно тому как появление датасета ImageNet дало мощный толчок развитию компьютерного зрения. Доступ к качественным большим данным открывает новые возможности для научных исследований и привлекает к области внимание молодых ученых, заинтересованных в применении машинного обучения для решения актуальных задач.

Датасет Yambda создан на основе обезличенных данных «Яндекс Музыки» – крупнейшего подписного музыкального сервиса в России. Его можно использовать для оценки качества любых рекомендательных систем, так как в их основе лежат общие алгоритмы. Yambda включает агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков. Все данные о пользователях и треках анонимизированы: датасет содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность.

Вам также могут понравиться