A Yandex introduziu o Yambda, um grande conjunto de dados público para promover a pesquisa em sistemas de recomendação. Lançado em maio de 2025, este conjunto de dados foi projetado para conectar a pesquisa acadêmica com aplicações industriais do mundo real. Inclui quase 5 bilhões de eventos de interação de usuários anônimos do Yandex Music.
O conjunto de dados Yambda apresenta 4,79 bilhões de interações de usuários anônimos coletadas ao longo de dez meses de aproximadamente 1 milhão de usuários interagindo com cerca de 9,4 milhões de faixas. Para proteger a privacidade, todos os identificadores de usuários e faixas são anonimizados usando IDs numéricos.
A Yandex fornece modelos de recomendação de linha de base implementados no conjunto de dados, incluindo filtragem colaborativa baseada em itens, fatoração de matrizes e filtragem colaborativa neural. O conjunto de dados está disponível em três tamanhos via Hugging Face, acomodando várias necessidades de pesquisa e capacidades computacionais.