Yandex wprowadził Yambda, duży publiczny zbiór danych mający na celu rozwój badań nad systemami rekomendacji. Udostępniony w maju 2025 roku zbiór danych ma na celu połączenie badań akademickich z rzeczywistymi zastosowaniami przemysłowymi. Zawiera on prawie 5 miliardów anonimowych zdarzeń interakcji użytkowników z Yandex Music.
Zbiór danych Yambda zawiera 4,79 miliarda anonimowych interakcji użytkowników zebranych w ciągu dziesięciu miesięcy od około 1 miliona użytkowników korzystających z około 9,4 miliona utworów. W celu ochrony prywatności wszystkie identyfikatory użytkowników i utworów są anonimizowane za pomocą numerycznych identyfikatorów.
Yandex udostępnia podstawowe modele rekomendacji zaimplementowane na zbiorze danych, w tym filtrowanie oparte na elementach, faktoryzację macierzy i neuronowe filtrowanie kolaboratywne. Zbiór danych jest dostępny w trzech rozmiarach za pośrednictwem Hugging Face, dostosowanych do różnych potrzeb badawczych i możliwości obliczeniowych.