Yandex heeft Yambda geïntroduceerd, een grote openbare dataset voor het bevorderen van onderzoek naar aanbevelingssystemen. Deze dataset, uitgebracht in mei 2025, is ontworpen om academisch onderzoek te verbinden met real-world industriële toepassingen. Het bevat bijna 5 miljard geanonimiseerde gebruikersinteractie-evenementen van Yandex Music.
De Yambda-dataset bevat 4,79 miljard geanonimiseerde gebruikersinteracties die gedurende tien maanden zijn verzameld van ongeveer 1 miljoen gebruikers die met ongeveer 9,4 miljoen nummers werken. Om de privacy te beschermen, zijn alle gebruikers- en track-identifiers geanonimiseerd met behulp van numerieke ID's.
Yandex biedt baseline-aanbevelingsmodellen die op de dataset zijn geïmplementeerd, waaronder Item-Based Collaborative Filtering, Matrix Factorization en Neural Collaborative Filtering. De dataset is beschikbaar in drie formaten via Hugging Face, afgestemd op verschillende onderzoeksbehoeften en rekenkracht.