Yandex đã giới thiệu Yambda, một bộ dữ liệu công khai lớn để thúc đẩy nghiên cứu về hệ thống đề xuất. Được phát hành vào tháng 5 năm 2025, bộ dữ liệu này được thiết kế để kết nối nghiên cứu học thuật với các ứng dụng công nghiệp trong thế giới thực. Nó bao gồm gần 5 tỷ sự kiện tương tác người dùng ẩn danh từ Yandex Music.
Bộ dữ liệu Yambda có 4,79 tỷ tương tác người dùng ẩn danh được thu thập trong mười tháng từ khoảng 1 triệu người dùng tương tác với khoảng 9,4 triệu bản nhạc. Để bảo vệ quyền riêng tư, tất cả các mã định danh người dùng và bản nhạc đều được ẩn danh bằng ID số.
Yandex cung cấp các mô hình đề xuất cơ bản được triển khai trên bộ dữ liệu, bao gồm Lọc cộng tác dựa trên mục, Phân tích ma trận và Lọc cộng tác thần kinh. Bộ dữ liệu có sẵn ở ba kích cỡ thông qua Hugging Face, đáp ứng các nhu cầu nghiên cứu và năng lực tính toán khác nhau.