Yandex hat Yambda vorgestellt, einen großen, öffentlichen Datensatz zur Förderung der Forschung im Bereich der Empfehlungssysteme. Dieser im Mai 2025 veröffentlichte Datensatz soll die akademische Forschung mit realen Industrieanwendungen verbinden. Er umfasst fast 5 Milliarden anonymisierte Benutzerinteraktionsereignisse von Yandex Music.
Der Yambda-Datensatz enthält 4,79 Milliarden anonymisierte Benutzerinteraktionen, die über zehn Monate von etwa 1 Million Benutzern gesammelt wurden, die mit rund 9,4 Millionen Titeln interagieren. Zum Schutz der Privatsphäre werden alle Benutzer- und Titelkennungen mithilfe numerischer IDs anonymisiert.
Yandex stellt auf dem Datensatz implementierte Basisempfehlungsmodelle bereit, darunter Item-Based Collaborative Filtering, Matrix Factorization und Neural Collaborative Filtering. Der Datensatz ist über Hugging Face in drei Größen erhältlich, um verschiedenen Forschungsanforderungen und Rechenkapazitäten gerecht zu werden.