Byte/RE ИТ-издание

Датасет для рекомендательных систем T-ECD – в открытом доступе

Центр искусственного интеллекта группы «Т-Технологии» выложил в открытый доступ датасет T-ECD (T-Tech E-commerce Cross-Domain Dataset) – один из крупнейших в мире датасетов для рекомендательных систем в области электронной торговли. Он собран на основе анонимизированных действий 44 млн уникальных пользователей сервисов Город: Шопинг и Супермаркеты, а также рекламной платформы Т-Банка, 30 млн товаров и более 135 млрд взаимодействий.

Особенности T-ECD – кросс-доменность и универсальность для решения разных типов задач. Бенчмарк состоит из пяти взаимосвязанных и полностью анонизимированных источников данных: история покупок по транзакциям, чеки, отзывы, взаимодействие с рекомендациями по товарам повседневного спроса (FMCG) и непродовольственных (non-FMCG) товаров (бытовой техники, одежды, электроники, косметики), а также истории активаций специальных предложений и кэшбэков. Все источники данных можно использовать как самостоятельные датасеты либо связывать их по ключам пользователей, товаров или брендов магазинов, что позволяет строить полные профили поведения и анализировать сложные сценарии для персонализации. Датасет подходит для большинства типов рекомендательных задач – рекомендации одного следующего объекта (next-item), следующей корзины (next-basket), следующей сессии (session-based), общих топ-N рекомендаций и других типов задач.

Данные собраны с глубиной от года до 3,5 лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей, динамику их изменения, а также сезонность и тренды. Фактор глубины данных крайне важен для исследований, поскольку позволяет делать корректные разбивки на данные для обучения моделей и дает возможности в разы повышать качество рекомендаций при использовании глубоких нейронных сетей.

Датасет содержит информацию по признакам пользователей и товаров, явную (explicit) и неявную (implicit) обратную связь пользователей, что делает его универсальным и открывает возможности для проведения исследования по полному охвату классов и типов рекомендательных систем – от коллаборативной фильтрации до более сложных контекстных и графовых подходов для использования глубокого обучения. В академических датасетах зачастую есть данные только о содержательных действиях пользователей: клики, покупки, лайки и др, но нет данных о просмотрах (так называемые impressions). При этом для бизнеса важно знать, что пользователям показывала рекомендательная система. Это помогает точнее понимать, что пользователи увидели, но никак на это не отреагировали. T-ECD содержит данные не только о фактах просмотров, но и уточняет источник – поиск, каталог или рекомендации, что позволяет оценивать влияние рекомендаций на пользователей или моделировать эффект воздействия.

Как отмечают в Т-Банке, T-ECD решает важную проблему сообщества: большинство существующих датасетов для рекомендательных систем устарели и не отражают актуальное поведение пользователей и взаимодействия с современными сервисами и платформами. С помощью T-ECD исследователи и разработчики получают бенчмарк на основе реальных предпочтений и паттернов поведения пользователей, что позволяет проверять новые наилучшие на данный момент алгоритмы машинного обучения на максимально приближенных к реальным рабочим данным и повышает доверие к результатам экспериментов.

Датасет T-ECD доступен на Hugging Face под лицензией Apache 2.0, разрешающей свободное коммерческое использование и модификацию.

Вам также могут понравиться