Yandex veröffentlicht Yambda-Datensatz für die Forschung an Musikempfehlungssystemen

Bearbeitet von: Veronika Radoslavskaya

Yandex hat Yambda vorgestellt, einen großen, öffentlichen Datensatz zur Förderung der Forschung im Bereich der Empfehlungssysteme. Dieser im Mai 2025 veröffentlichte Datensatz soll die akademische Forschung mit realen Industrieanwendungen verbinden. Er umfasst fast 5 Milliarden anonymisierte Benutzerinteraktionsereignisse von Yandex Music.

Der Yambda-Datensatz enthält 4,79 Milliarden anonymisierte Benutzerinteraktionen, die über zehn Monate von etwa 1 Million Benutzern gesammelt wurden, die mit rund 9,4 Millionen Titeln interagieren. Zum Schutz der Privatsphäre werden alle Benutzer- und Titelkennungen mithilfe numerischer IDs anonymisiert.

Yandex stellt auf dem Datensatz implementierte Basisempfehlungsmodelle bereit, darunter Item-Based Collaborative Filtering, Matrix Factorization und Neural Collaborative Filtering. Der Datensatz ist über Hugging Face in drei Größen erhältlich, um verschiedenen Forschungsanforderungen und Rechenkapazitäten gerecht zu werden.

Quellen

  • MarkTechPost

  • Yandex

  • Yandex

  • arXiv

  • Yandex

  • Hugging Face

  • MarkTechPost

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?

Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.

Yandex veröffentlicht Yambda-Datensatz für... | Gaya One