Yandexは、レコメンダーシステムの研究を推進するための大規模な公開データセットであるYambdaを発表しました。2025年5月にリリースされたこのデータセットは、学術研究と現実世界の産業アプリケーションを結び付けるように設計されています。Yandex Musicからの約50億件の匿名化されたユーザーインタラクションイベントが含まれています。
Yambdaデータセットには、約100万人のユーザーが約940万のトラックとやり取りした10か月間に収集された47億9000万件の匿名化されたユーザーインタラクションが含まれています。プライバシーを保護するために、すべてのユーザーおよびトラック識別子は、数値IDを使用して匿名化されています。
Yandexは、アイテムベースの協調フィルタリング、行列分解、ニューラル協調フィルタリングなど、データセットに実装されたベースラインレコメンダーモデルを提供します。データセットは、さまざまな研究ニーズと計算能力に対応するために、Hugging Face経由で3つのサイズで利用できます。