কুয়াইশু উন্মোচন করল ক্লিং এআই ৩.০: ইউনিফাইড মাল্টিমোডাল আর্কিটেকচার এবং নেটিভ অডিওর সমন্বয়
সম্পাদনা করেছেন: Veronika Radoslavskaya
২০২৬ সালের ৫ ফেব্রুয়ারি, কুয়াইশু টেকনোলজি (Kuaishou Technology) আনুষ্ঠানিকভাবে তাদের ক্লিং ৩.০ (Kling 3.0) মডেল সিরিজটি বিশ্বের সামনে নিয়ে এসেছে। এই নতুন পরিবারে রয়েছে ভিডিও ৩.০ (Video 3.0), ভিডিও ৩.০ অমনি (Video 3.0 Omni), ইমেজ ৩.০ (Image 3.0) এবং ইমেজ ৩.০ অমনি (Image 3.0 Omni)। এই উদ্ভাবনটি কেবল বিচ্ছিন্ন ক্লিপ তৈরির সীমাবদ্ধতা ভেঙে জটিল এবং আখ্যান-নির্ভর দৃশ্য পরিচালনার জন্য একটি পূর্ণাঙ্গ টুলসেট হিসেবে আত্মপ্রকাশ করেছে।
ক্লিং ৩.০-এর অন্যতম প্রধান আকর্ষণ হলো এর নেটিভ অডিও (Native Audio) সক্ষমতা, যা এআই ভিডিওকে নিছক নীরব লুপ থেকে একটি সম্পূর্ণ নিমজ্জিত অভিজ্ঞতায় রূপান্তরিত করে। এই প্রযুক্তির মাধ্যমে ভিডিওর দৃশ্যপটের সাথে শব্দের এক গভীর সংযোগ তৈরি করা সম্ভব হয়েছে, যা আগে কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রে একটি বড় চ্যালেঞ্জ ছিল।
- ক্লিং ৩.০ মডেলটি ইংরেজি, চীনা, জাপানিজ, কোরিয়ান এবং স্প্যানিশ ভাষায় কথা বলতে সক্ষম। এমনকি ব্রিটিশ এবং আমেরিকান ইংরেজির মতো বিভিন্ন আঞ্চলিক উচ্চারণের সূক্ষ্ম পার্থক্যগুলোও এটি নিখুঁতভাবে ফুটিয়ে তুলতে পারে।
- এই মডেলটি একটি একক দৃশ্যের মধ্যে সর্বোচ্চ তিনজন ভিন্ন চরিত্রের মধ্যে কথোপকথন পরিচালনা করতে পারে। কৃত্রিম বুদ্ধিমত্তা নিজে থেকেই প্রতিটি বক্তাকে শনাক্ত করে তাদের জন্য আলাদা ভয়েস টিম্বার বা কণ্ঠস্বর বরাদ্দ করে এবং ঠোঁটের নড়াচড়ার সাথে শব্দের নিখুঁত সামঞ্জস্য বা লিপ-সিনক্রোনাইজেশন নিশ্চিত করে।
- কেবল সংলাপই নয়, ক্লিং ৩.০ পারিপার্শ্বিক শব্দ বা ডাইজেটিক সাউন্ড তৈরিতেও পারদর্শী। হাঁটার শব্দ, কোনো কিছুর আঘাত বা পরিবেশের আবহ সংগীত—সবই ভিজ্যুয়াল মুডের সাথে তাল মিলিয়ে স্বয়ংক্রিয়ভাবে তৈরি হয়।
এআই ভিডিও তৈরির ক্ষেত্রে আখ্যানের ধারাবাহিকতা বজায় রাখা একটি বড় চ্যালেঞ্জ ছিল, যা এখন ইন্টেলিজেন্ট মাল্টি-শট (Intelligent Multi-Shot) ফিচারের মাধ্যমে সমাধান করা হয়েছে। এই ফিচারের ফলে ভিডিওর গল্প বলার ধরণ আরও বেশি পেশাদার এবং সিনেমাটিক হয়ে উঠেছে।
নির্মাতারা এখন একটি ১৫ সেকেন্ডের ধারাবাহিক সিকোয়েন্স তৈরি করতে পারেন যেখানে সর্বোচ্চ ছয়টি ভিন্ন ক্যামেরা কাট বা শট পরিবর্তন করা সম্ভব। এটি দীর্ঘতর এবং আরও অর্থবহ ভিডিও কন্টেন্ট তৈরির পথ প্রশস্ত করেছে, যা নির্মাতাদের সৃজনশীলতাকে নতুন মাত্রা দেবে।
এই সিস্টেমটি সিনেমাটিক ভাষা বুঝতে সক্ষম, যা এস্টাবলিশিং ওয়াইড শট থেকে ইনটেন্স ক্লোজ-আপে যাওয়ার মতো জটিল ট্রানজিশনগুলো সহজ করে তোলে। এমনকি কথোপকথনের সময় শট-রিভার্স-শট বা বিভিন্ন অ্যাঙ্গেল থেকে ক্যামেরা পরিবর্তনের কাজগুলো এটি অত্যন্ত পেশাদারভাবে সম্পন্ন করে।
ভিডিও ৩.০ অমনি মডেলের একটি বিশেষ শক্তি হলো বিভিন্ন কাটের মধ্যেও চরিত্র এবং পরিবেশের অভিন্নতা বজায় রাখা। ক্যামেরা অ্যাঙ্গেল পরিবর্তনের সাথে সাথে চরিত্রের বৈশিষ্ট্য বা পরিবেশের উপাদানগুলো বদলে যায় না বা বিকৃত হয় না, যা পেশাদার ভিডিও নির্মাণের জন্য একটি অপরিহার্য দিক।
ভিজ্যুয়াল কোয়ালিটির ক্ষেত্রে ইমেজ ৩.০ অমনি মডেলটি ২কে (2K) এবং ৪কে (4K) আউটপুট সমর্থন করে। এটি জটিল আলোকসজ্জা এবং বাস্তবসম্মত টেক্সচার ফুটিয়ে তুলতে অসাধারণ পারদর্শিতা দেখায়। বিশেষ করে প্রম্পট অনুযায়ী নিখুঁত ছবি তৈরিতে এটি এখন অনেক বেশি দক্ষ এবং নির্ভরযোগ্য।
জেনারেটিভ মডেলগুলোর জন্য ছবি বা ভিডিওর ভেতরে পাঠ্য বা টেক্সট রেন্ডারিং করা সবসময়ই কঠিন ছিল। তবে ক্লিং ৩.০ রাস্তার সাইনবোর্ড, পোশাকের লোগো বা ডিভাইসের স্ক্রিনে অত্যন্ত স্পষ্ট এবং পাঠযোগ্য টেক্সট প্রদর্শন করতে পারে, যা এই মডেলটিকে অন্যদের থেকে আলাদা করে তুলেছে।
ভিডিও ৩.০ এর মাধ্যমে ১০৮০পি আউটপুট পাওয়া যায়, যা উচ্চ ফ্রেম রেটের কারণে অত্যন্ত মসৃণ গতির নিশ্চয়তা দেয়। এমনকি দ্রুত গতির অ্যাকশন সিকোয়েন্সগুলোতেও এটি ফ্রেমের স্থায়িত্ব বজায় রাখতে সক্ষম, যা দর্শকদের একটি উন্নত মানের ভিজ্যুয়াল অভিজ্ঞতা প্রদান করে।
বর্তমানে ক্লিং ৩.০ মডেলটি ক্লিং এআই ওয়েব ইন্টারফেসের মাধ্যমে একচেটিয়া আর্লি অ্যাক্সেস বা প্রাথমিক ব্যবহারের জন্য উন্মুক্ত করা হয়েছে। ব্যবহারকারীরা সরাসরি এই প্ল্যাটফর্ম থেকে মডেলটির নতুন ফিচারগুলো পরখ করে দেখার সুযোগ পাচ্ছেন।
ডেভেলপার এবং এন্টারপ্রাইজ ব্যবহারের জন্য থার্ড-পার্টি প্রোভাইডার ফ্যাল এআই (Fal AI) এর এপিআই (API) ব্যবহার করে এই মডেলগুলোর সুবিধা গ্রহণ করা যাবে। এর ফলে বিভিন্ন অ্যাপ্লিকেশনে ক্লিং ৩.০-এর শক্তিশালী সক্ষমতাগুলো যুক্ত করা আরও সহজতর হবে।
12 দৃশ্য
উৎসসমূহ
TechBullion
PRNewswire
AI NEWS
NDTV
YouTube
Focal
এই বিষয়ে আরও খবর পড়ুন:
আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।