Yandex lanceert Yambda-dataset voor onderzoek naar muziekaanbevelingssystemen

Bewerkt door: Veronika Radoslavskaya

Yandex heeft Yambda geïntroduceerd, een grote openbare dataset voor het bevorderen van onderzoek naar aanbevelingssystemen. Deze dataset, uitgebracht in mei 2025, is ontworpen om academisch onderzoek te verbinden met real-world industriële toepassingen. Het bevat bijna 5 miljard geanonimiseerde gebruikersinteractie-evenementen van Yandex Music.

De Yambda-dataset bevat 4,79 miljard geanonimiseerde gebruikersinteracties die gedurende tien maanden zijn verzameld van ongeveer 1 miljoen gebruikers die met ongeveer 9,4 miljoen nummers werken. Om de privacy te beschermen, zijn alle gebruikers- en track-identifiers geanonimiseerd met behulp van numerieke ID's.

Yandex biedt baseline-aanbevelingsmodellen die op de dataset zijn geïmplementeerd, waaronder Item-Based Collaborative Filtering, Matrix Factorization en Neural Collaborative Filtering. De dataset is beschikbaar in drie formaten via Hugging Face, afgestemd op verschillende onderzoeksbehoeften en rekenkracht.

Bronnen

  • MarkTechPost

  • Yandex

  • Yandex

  • arXiv

  • Yandex

  • Hugging Face

  • MarkTechPost

Heb je een fout of onnauwkeurigheid gevonden?

We zullen je opmerkingen zo snel mogelijk in overweging nemen.

Yandex lanceert Yambda-dataset voor onderz... | Gaya One