Yandex представила Yambda, великий публічний набір даних для розвитку досліджень у галузі систем рекомендацій. Цей набір даних, випущений у травні 2025 року, призначений для поєднання академічних досліджень із реальними промисловими застосуваннями. Він містить майже 5 мільярдів анонімних подій взаємодії користувачів із Yandex Music.
Набір даних Yambda містить 4,79 мільярда анонімних взаємодій користувачів, зібраних протягом десяти місяців приблизно від 1 мільйона користувачів, які взаємодіяли з приблизно 9,4 мільйонами треків. Щоб захистити конфіденційність, усі ідентифікатори користувачів і треків анонімізовано за допомогою числових ідентифікаторів.
Yandex надає базові моделі рекомендацій, реалізовані на наборі даних, включаючи колаборативну фільтрацію на основі елементів, матричну факторизацію та нейронну колаборативну фільтрацію. Набір даних доступний у трьох розмірах через Hugging Face, що задовольняє різні дослідницькі потреби та обчислювальні можливості.