ফ্ল্যাশল্যাবস উন্মোচন করল ক্রোমা ১.০: ওপেন-সোর্স রিয়েল-টাইম ভয়েস এআই-এর এক নতুন মাইলফলক

সম্পাদনা করেছেন: Veronika Radoslavskaya

অ্যাপ্লাইড এআই রিসার্চ ল্যাব ফ্ল্যাশল্যাবস (FlashLabs) সম্প্রতি ক্রোমা ১.০ (Chroma 1.0) প্রকাশের ঘোষণা দিয়েছে, যা কৃত্রিম বুদ্ধিমত্তার সাথে মানুষের মৌখিক যোগাযোগের পদ্ধতিতে এক বৈপ্লবিক পরিবর্তন নিয়ে এসেছে। ক্রোমাকে বিশ্বের প্রথম ওপেন-সোর্স, এন্ড-টু-এন্ড (E2E) স্পিচ-টু-স্পিচ মডেল হিসেবে চিহ্নিত করা হয়েছে। এটি মূলত প্রথাগত ভয়েস সিস্টেমের প্রযুক্তিগত বিলম্ব বা ল্যাগ দূর করে "মানুষের গতির" মতো দ্রুত কাজ করার জন্য বিশেষভাবে ডিজাইন করা হয়েছে। খণ্ডিত প্রক্রিয়াকরণ পদ্ধতির পরিবর্তে এই মডেলটি সরাসরি কাজ করে, যা আবেগীয় সূক্ষ্মতা এবং তাৎক্ষণিক কথোপকথনের মতো জটিল বিষয়গুলোকে অত্যন্ত সাবলীলভাবে সমর্থন করে।

বর্তমানে প্রচলিত ভয়েস অ্যাসিস্ট্যান্টগুলো সাধারণত একটি বহুমুখী বা ধাপে ধাপে সম্পন্ন হওয়া প্রক্রিয়ার ওপর নির্ভর করে। প্রথমে মানুষের কথাকে টেক্সটে রূপান্তর (ASR) করা হয়, তারপর সেই টেক্সটকে একটি ল্যাঙ্গুয়েজ মডেল (LLM) দিয়ে প্রসেস করা হয় এবং সবশেষে কৃত্রিম কণ্ঠস্বর সংশ্লেষণ (TTS) করে উত্তর দেওয়া হয়। এই দীর্ঘ প্রক্রিয়ার কারণে ব্যবহারকারীর কথা শেষ হওয়া এবং এআই-এর উত্তর শুরু করার মধ্যে একটি লক্ষণীয় সময়ের ব্যবধান বা "ল্যাটেন্সি" তৈরি হয়, যা কথোপকথনের স্বাভাবিকতা নষ্ট করে। তবে ক্রোমা ১.০ সরাসরি ভয়েস মোডে বা নেটিভলি কাজ করে, যার ফলে এর "টাইম টু ফার্স্ট টোকেন" (TTFT) ১৫০ মিলিসেকেন্ডের নিচে নামিয়ে আনা সম্ভব হয়েছে। এই অভাবনীয় গতি এআই-কে মানুষের কথার ছন্দ, সুর এবং বিরতি বজায় রেখে তাৎক্ষণিক প্রতিক্রিয়া জানাতে সাহায্য করে।

ক্রোমা ১.০-এর অন্যতম প্রধান বৈশিষ্ট্য হলো এর অত্যন্ত উন্নত ভয়েস ক্লোনিং ক্ষমতা। মাত্র কয়েক সেকেন্ডের অডিও নমুনা ব্যবহার করেই এটি যেকোনো ব্যক্তির জন্য একটি ব্যক্তিগতকৃত ডিজিটাল কণ্ঠস্বর তৈরি করতে সক্ষম। ফ্ল্যাশল্যাবসের অভ্যন্তরীণ মূল্যায়নে এই মডেলটি ০.৮১৭ স্পিকার সিমিলারিটি স্কোর (SIM) অর্জন করেছে। ল্যাবটির মতে, এই স্কোর মানুষের ভয়েস রিকগনিশন বেসলাইনের চেয়ে প্রায় ১১ শতাংশ বেশি। এর অর্থ হলো, এখন বিশাল ডেটাসেট বা দীর্ঘকালীন ফাইন-টিউনিং সাইকেলের প্রয়োজন ছাড়াই অত্যন্ত উচ্চমানের এবং সহজেই চেনা যায় এমন কণ্ঠস্বর তৈরি করা সম্ভব হচ্ছে।

অত্যন্ত উন্নত এবং জটিল বুদ্ধিবৃত্তিক ক্ষমতা থাকা সত্ত্বেও ক্রোমা ১.০ মাত্র ৪ বিলিয়ন প্যারামিটারের একটি অত্যন্ত দক্ষ ও সংক্ষিপ্ত আর্কিটেকচারের ওপর ভিত্তি করে তৈরি করা হয়েছে। এই প্রযুক্তিগত দক্ষতা মডেলটিকে বিভিন্ন ধরণের হার্ডওয়্যার এবং অ্যাপ্লিকেশনের জন্য অত্যন্ত উপযোগী করে তুলেছে। বিশেষ করে যেখানে ইন্টারনেটের গতি কম বা যেখানে ডেটা গোপনীয়তা বজায় রাখা অত্যন্ত গুরুত্বপূর্ণ, সেখানে এই মডেলটি ক্লাউডের ওপর নির্ভর না করে সরাসরি ডিভাইসের মধ্যেই বা লোকাল সার্ভারে চালানো সম্ভব। এই কম প্যারামিটারের মডেলটি বড় মডেলগুলোর মতোই কার্যকর ফলাফল দিতে সক্ষম, যা এআই প্রযুক্তির গণতন্ত্রীকরণে বড় ভূমিকা রাখবে।

ক্রোমা ১.০-এর বহুমুখী ব্যবহারের ক্ষেত্রগুলো অত্যন্ত বিস্তৃত, যার মধ্যে উল্লেখযোগ্য হলো:

  • স্বায়ত্তশাসিত ভয়েস এজেন্ট: ব্যক্তিগত বা পেশাদার ব্যবহারের জন্য অত্যন্ত দ্রুত প্রতিক্রিয়াশীল এবং বুদ্ধিমান সহকারী তৈরি করা।
  • এজ ডিপ্লয়মেন্ট: ল্যাটেন্সি কমাতে এবং তথ্যের সর্বোচ্চ নিরাপত্তা নিশ্চিত করতে সরাসরি লোকাল ডিভাইসে মডেলটি চালানো।
  • ইন্টারেক্টিভ এনপিসি: ভিডিও গেমের নন-প্লেয়ার ক্যারেক্টারদের সাথে রিয়েল-টাইমে কোনো পূর্বনির্ধারিত স্ক্রিপ্ট ছাড়াই স্বাভাবিক কথোপকথন সম্ভব করা।
  • রিয়েল-টাইম অনুবাদ: এমন শক্তিশালী টুল তৈরি করা যা কথা বলার সাথে সাথেই প্রায় সমান্তরালভাবে অন্য ভাষায় অনুবাদ করতে পারে।

ফ্ল্যাশল্যাবস ক্রোমা ১.০-কে একটি সম্পূর্ণ ওপেন-সোর্স প্রজেক্ট হিসেবে অবমুক্ত করেছে। এই মডেলের ওয়েটস (weights) এখন হাগিং ফেস (Hugging Face) প্ল্যাটফর্মে পাওয়া যাচ্ছে এবং এর ইনফারেন্স কোড গিটহাব (GitHub)-এ হোস্ট করা হয়েছে। এই উন্মুক্ত পদ্ধতির মূল উদ্দেশ্য হলো বিশ্বজুড়ে গবেষক এবং ডেভেলপারদের এই রিয়েল-টাইম ইন্টেলিজেন্স ব্যবহার করে নতুন উদ্ভাবনের সুযোগ করে দেওয়া। এর মাধ্যমে এমন এক "এজেন্টিক" সিস্টেমের যুগ শুরু হতে যাচ্ছে যা মানুষের স্বাভাবিক কথোপকথনের গতিতে এবং বুদ্ধিমত্তার সাথে কাজ করতে সক্ষম হবে।

41 দৃশ্য

উৎসসমূহ

  • IT News Online

  • PR Newswire

  • MarkTechPost

  • GitHub

  • Hugging Face

  • FlashIntel | Forbes Technology Council

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।