Yandex telah memperkenalkan Yambda, sebuah dataset publik besar untuk memajukan penelitian dalam sistem pemberi rekomendasi. Dirilis pada Mei 2025, dataset ini dirancang untuk menghubungkan penelitian akademik dengan aplikasi industri dunia nyata. Ini mencakup hampir 5 miliar peristiwa interaksi pengguna anonim dari Yandex Music.
Dataset Yambda menampilkan 4,79 miliar interaksi pengguna anonim yang dikumpulkan selama sepuluh bulan dari sekitar 1 juta pengguna yang berinteraksi dengan sekitar 9,4 juta trek. Untuk melindungi privasi, semua pengidentifikasi pengguna dan trek dianonimkan menggunakan ID numerik.
Yandex menyediakan model pemberi rekomendasi dasar yang diimplementasikan pada dataset, termasuk Pemfilteran Kolaboratif Berbasis Item, Faktorisasi Matriks, dan Pemfilteran Kolaboratif Neural. Dataset ini tersedia dalam tiga ukuran melalui Hugging Face, mengakomodasi berbagai kebutuhan penelitian dan kapasitas komputasi.