Yandex সুপারিশকারী সিস্টেমের গবেষণাকে এগিয়ে নিয়ে যাওয়ার জন্য Yambda নামে একটি বৃহৎ ডেটাসেট প্রকাশ করেছে। 2025 সালের মে মাসে প্রকাশিত এই ডেটাসেটটি একাডেমিক গবেষণা এবং বাস্তব জগতের শিল্প প্রয়োগকে যুক্ত করার জন্য ডিজাইন করা হয়েছে। এতে Yandex Music থেকে প্রায় 5 বিলিয়ন বেনামী ব্যবহারকারীর মিথস্ক্রিয়া ইভেন্ট অন্তর্ভুক্ত রয়েছে।
Yambda ডেটাসেটে 4.79 বিলিয়ন বেনামী ব্যবহারকারীর মিথস্ক্রিয়া রয়েছে যা প্রায় 1 মিলিয়ন ব্যবহারকারীর থেকে 9.4 মিলিয়ন ট্র্যাকের সাথে দশ মাসে সংগ্রহ করা হয়েছে। গোপনীয়তা রক্ষার জন্য, সমস্ত ব্যবহারকারী এবং ট্র্যাক শনাক্তকারী সংখ্যাসূচক আইডি ব্যবহার করে বেনামী করা হয়েছে।
Yandex ডেটাসেটের উপর ভিত্তি করে তৈরি কিছু বেসলাইন সুপারিশকারী মডেল সরবরাহ করে, যার মধ্যে রয়েছে আইটেম-ভিত্তিক সহযোগী ফিল্টারিং, ম্যাট্রিক্স ফ্যাক্টরাইজেশন এবং নিউরাল সহযোগী ফিল্টারিং। এই ডেটাসেটটি Hugging Face-এর মাধ্যমে তিনটি আকারে পাওয়া যায়, যা বিভিন্ন গবেষণা প্রয়োজন এবং কম্পিউটেশনাল ক্ষমতা পূরণ করে।