Yandex发布Yambda数据集,用于音乐推荐系统研究

编辑者: Veronika Radoslavskaya

Yandex推出了大型公共数据集Yambda,旨在推动推荐系统研究。该数据集于2025年5月发布,旨在将学术研究与现实世界的行业应用联系起来。它包含来自Yandex音乐的近50亿次匿名用户互动事件。

Yambda数据集包含47.9亿次匿名用户互动,这些互动是在十个月内从大约100万用户与大约940万首曲目的互动中收集的。为了保护隐私,所有用户和曲目标识符都使用数字ID进行了匿名化处理。

Yandex提供了在该数据集上实施的基线推荐模型,包括基于项目的协同过滤、矩阵分解和神经协同过滤。该数据集通过Hugging Face提供三种尺寸,以满足各种研究需求和计算能力。

来源

  • MarkTechPost

  • Yandex

  • Yandex

  • arXiv

  • Yandex

  • Hugging Face

  • MarkTechPost

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。