ফ্ল্যাশল্যাবস উন্মোচন করল ক্রোমা ১.০: ওপেন-সোর্স রিয়েল-টাইম ভয়েস এআই-এর এক নতুন মাইলফলক
সম্পাদনা করেছেন: Veronika Radoslavskaya
অ্যাপ্লাইড এআই রিসার্চ ল্যাব ফ্ল্যাশল্যাবস (FlashLabs) সম্প্রতি ক্রোমা ১.০ (Chroma 1.0) প্রকাশের ঘোষণা দিয়েছে, যা কৃত্রিম বুদ্ধিমত্তার সাথে মানুষের মৌখিক যোগাযোগের পদ্ধতিতে এক বৈপ্লবিক পরিবর্তন নিয়ে এসেছে। ক্রোমাকে বিশ্বের প্রথম ওপেন-সোর্স, এন্ড-টু-এন্ড (E2E) স্পিচ-টু-স্পিচ মডেল হিসেবে চিহ্নিত করা হয়েছে। এটি মূলত প্রথাগত ভয়েস সিস্টেমের প্রযুক্তিগত বিলম্ব বা ল্যাগ দূর করে "মানুষের গতির" মতো দ্রুত কাজ করার জন্য বিশেষভাবে ডিজাইন করা হয়েছে। খণ্ডিত প্রক্রিয়াকরণ পদ্ধতির পরিবর্তে এই মডেলটি সরাসরি কাজ করে, যা আবেগীয় সূক্ষ্মতা এবং তাৎক্ষণিক কথোপকথনের মতো জটিল বিষয়গুলোকে অত্যন্ত সাবলীলভাবে সমর্থন করে।
বর্তমানে প্রচলিত ভয়েস অ্যাসিস্ট্যান্টগুলো সাধারণত একটি বহুমুখী বা ধাপে ধাপে সম্পন্ন হওয়া প্রক্রিয়ার ওপর নির্ভর করে। প্রথমে মানুষের কথাকে টেক্সটে রূপান্তর (ASR) করা হয়, তারপর সেই টেক্সটকে একটি ল্যাঙ্গুয়েজ মডেল (LLM) দিয়ে প্রসেস করা হয় এবং সবশেষে কৃত্রিম কণ্ঠস্বর সংশ্লেষণ (TTS) করে উত্তর দেওয়া হয়। এই দীর্ঘ প্রক্রিয়ার কারণে ব্যবহারকারীর কথা শেষ হওয়া এবং এআই-এর উত্তর শুরু করার মধ্যে একটি লক্ষণীয় সময়ের ব্যবধান বা "ল্যাটেন্সি" তৈরি হয়, যা কথোপকথনের স্বাভাবিকতা নষ্ট করে। তবে ক্রোমা ১.০ সরাসরি ভয়েস মোডে বা নেটিভলি কাজ করে, যার ফলে এর "টাইম টু ফার্স্ট টোকেন" (TTFT) ১৫০ মিলিসেকেন্ডের নিচে নামিয়ে আনা সম্ভব হয়েছে। এই অভাবনীয় গতি এআই-কে মানুষের কথার ছন্দ, সুর এবং বিরতি বজায় রেখে তাৎক্ষণিক প্রতিক্রিয়া জানাতে সাহায্য করে।
ক্রোমা ১.০-এর অন্যতম প্রধান বৈশিষ্ট্য হলো এর অত্যন্ত উন্নত ভয়েস ক্লোনিং ক্ষমতা। মাত্র কয়েক সেকেন্ডের অডিও নমুনা ব্যবহার করেই এটি যেকোনো ব্যক্তির জন্য একটি ব্যক্তিগতকৃত ডিজিটাল কণ্ঠস্বর তৈরি করতে সক্ষম। ফ্ল্যাশল্যাবসের অভ্যন্তরীণ মূল্যায়নে এই মডেলটি ০.৮১৭ স্পিকার সিমিলারিটি স্কোর (SIM) অর্জন করেছে। ল্যাবটির মতে, এই স্কোর মানুষের ভয়েস রিকগনিশন বেসলাইনের চেয়ে প্রায় ১১ শতাংশ বেশি। এর অর্থ হলো, এখন বিশাল ডেটাসেট বা দীর্ঘকালীন ফাইন-টিউনিং সাইকেলের প্রয়োজন ছাড়াই অত্যন্ত উচ্চমানের এবং সহজেই চেনা যায় এমন কণ্ঠস্বর তৈরি করা সম্ভব হচ্ছে।
অত্যন্ত উন্নত এবং জটিল বুদ্ধিবৃত্তিক ক্ষমতা থাকা সত্ত্বেও ক্রোমা ১.০ মাত্র ৪ বিলিয়ন প্যারামিটারের একটি অত্যন্ত দক্ষ ও সংক্ষিপ্ত আর্কিটেকচারের ওপর ভিত্তি করে তৈরি করা হয়েছে। এই প্রযুক্তিগত দক্ষতা মডেলটিকে বিভিন্ন ধরণের হার্ডওয়্যার এবং অ্যাপ্লিকেশনের জন্য অত্যন্ত উপযোগী করে তুলেছে। বিশেষ করে যেখানে ইন্টারনেটের গতি কম বা যেখানে ডেটা গোপনীয়তা বজায় রাখা অত্যন্ত গুরুত্বপূর্ণ, সেখানে এই মডেলটি ক্লাউডের ওপর নির্ভর না করে সরাসরি ডিভাইসের মধ্যেই বা লোকাল সার্ভারে চালানো সম্ভব। এই কম প্যারামিটারের মডেলটি বড় মডেলগুলোর মতোই কার্যকর ফলাফল দিতে সক্ষম, যা এআই প্রযুক্তির গণতন্ত্রীকরণে বড় ভূমিকা রাখবে।
ক্রোমা ১.০-এর বহুমুখী ব্যবহারের ক্ষেত্রগুলো অত্যন্ত বিস্তৃত, যার মধ্যে উল্লেখযোগ্য হলো:
- স্বায়ত্তশাসিত ভয়েস এজেন্ট: ব্যক্তিগত বা পেশাদার ব্যবহারের জন্য অত্যন্ত দ্রুত প্রতিক্রিয়াশীল এবং বুদ্ধিমান সহকারী তৈরি করা।
- এজ ডিপ্লয়মেন্ট: ল্যাটেন্সি কমাতে এবং তথ্যের সর্বোচ্চ নিরাপত্তা নিশ্চিত করতে সরাসরি লোকাল ডিভাইসে মডেলটি চালানো।
- ইন্টারেক্টিভ এনপিসি: ভিডিও গেমের নন-প্লেয়ার ক্যারেক্টারদের সাথে রিয়েল-টাইমে কোনো পূর্বনির্ধারিত স্ক্রিপ্ট ছাড়াই স্বাভাবিক কথোপকথন সম্ভব করা।
- রিয়েল-টাইম অনুবাদ: এমন শক্তিশালী টুল তৈরি করা যা কথা বলার সাথে সাথেই প্রায় সমান্তরালভাবে অন্য ভাষায় অনুবাদ করতে পারে।
ফ্ল্যাশল্যাবস ক্রোমা ১.০-কে একটি সম্পূর্ণ ওপেন-সোর্স প্রজেক্ট হিসেবে অবমুক্ত করেছে। এই মডেলের ওয়েটস (weights) এখন হাগিং ফেস (Hugging Face) প্ল্যাটফর্মে পাওয়া যাচ্ছে এবং এর ইনফারেন্স কোড গিটহাব (GitHub)-এ হোস্ট করা হয়েছে। এই উন্মুক্ত পদ্ধতির মূল উদ্দেশ্য হলো বিশ্বজুড়ে গবেষক এবং ডেভেলপারদের এই রিয়েল-টাইম ইন্টেলিজেন্স ব্যবহার করে নতুন উদ্ভাবনের সুযোগ করে দেওয়া। এর মাধ্যমে এমন এক "এজেন্টিক" সিস্টেমের যুগ শুরু হতে যাচ্ছে যা মানুষের স্বাভাবিক কথোপকথনের গতিতে এবং বুদ্ধিমত্তার সাথে কাজ করতে সক্ষম হবে।
41 দৃশ্য
উৎসসমূহ
IT News Online
PR Newswire
MarkTechPost
GitHub
Hugging Face
FlashIntel | Forbes Technology Council
এই বিষয়ে আরও খবর পড়ুন:
আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।
