কুয়াইশু উন্মোচন করল ক্লিং এআই ৩.০: ইউনিফাইড মাল্টিমোডাল আর্কিটেকচার এবং নেটিভ অডিওর সমন্বয়

সম্পাদনা করেছেন: Veronika Radoslavskaya

২০২৬ সালের ৫ ফেব্রুয়ারি, কুয়াইশু টেকনোলজি (Kuaishou Technology) আনুষ্ঠানিকভাবে তাদের ক্লিং ৩.০ (Kling 3.0) মডেল সিরিজটি বিশ্বের সামনে নিয়ে এসেছে। এই নতুন পরিবারে রয়েছে ভিডিও ৩.০ (Video 3.0), ভিডিও ৩.০ অমনি (Video 3.0 Omni), ইমেজ ৩.০ (Image 3.0) এবং ইমেজ ৩.০ অমনি (Image 3.0 Omni)। এই উদ্ভাবনটি কেবল বিচ্ছিন্ন ক্লিপ তৈরির সীমাবদ্ধতা ভেঙে জটিল এবং আখ্যান-নির্ভর দৃশ্য পরিচালনার জন্য একটি পূর্ণাঙ্গ টুলসেট হিসেবে আত্মপ্রকাশ করেছে।

ক্লিং ৩.০-এর অন্যতম প্রধান আকর্ষণ হলো এর নেটিভ অডিও (Native Audio) সক্ষমতা, যা এআই ভিডিওকে নিছক নীরব লুপ থেকে একটি সম্পূর্ণ নিমজ্জিত অভিজ্ঞতায় রূপান্তরিত করে। এই প্রযুক্তির মাধ্যমে ভিডিওর দৃশ্যপটের সাথে শব্দের এক গভীর সংযোগ তৈরি করা সম্ভব হয়েছে, যা আগে কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রে একটি বড় চ্যালেঞ্জ ছিল।

  • ক্লিং ৩.০ মডেলটি ইংরেজি, চীনা, জাপানিজ, কোরিয়ান এবং স্প্যানিশ ভাষায় কথা বলতে সক্ষম। এমনকি ব্রিটিশ এবং আমেরিকান ইংরেজির মতো বিভিন্ন আঞ্চলিক উচ্চারণের সূক্ষ্ম পার্থক্যগুলোও এটি নিখুঁতভাবে ফুটিয়ে তুলতে পারে।
  • এই মডেলটি একটি একক দৃশ্যের মধ্যে সর্বোচ্চ তিনজন ভিন্ন চরিত্রের মধ্যে কথোপকথন পরিচালনা করতে পারে। কৃত্রিম বুদ্ধিমত্তা নিজে থেকেই প্রতিটি বক্তাকে শনাক্ত করে তাদের জন্য আলাদা ভয়েস টিম্বার বা কণ্ঠস্বর বরাদ্দ করে এবং ঠোঁটের নড়াচড়ার সাথে শব্দের নিখুঁত সামঞ্জস্য বা লিপ-সিনক্রোনাইজেশন নিশ্চিত করে।
  • কেবল সংলাপই নয়, ক্লিং ৩.০ পারিপার্শ্বিক শব্দ বা ডাইজেটিক সাউন্ড তৈরিতেও পারদর্শী। হাঁটার শব্দ, কোনো কিছুর আঘাত বা পরিবেশের আবহ সংগীত—সবই ভিজ্যুয়াল মুডের সাথে তাল মিলিয়ে স্বয়ংক্রিয়ভাবে তৈরি হয়।

এআই ভিডিও তৈরির ক্ষেত্রে আখ্যানের ধারাবাহিকতা বজায় রাখা একটি বড় চ্যালেঞ্জ ছিল, যা এখন ইন্টেলিজেন্ট মাল্টি-শট (Intelligent Multi-Shot) ফিচারের মাধ্যমে সমাধান করা হয়েছে। এই ফিচারের ফলে ভিডিওর গল্প বলার ধরণ আরও বেশি পেশাদার এবং সিনেমাটিক হয়ে উঠেছে।

নির্মাতারা এখন একটি ১৫ সেকেন্ডের ধারাবাহিক সিকোয়েন্স তৈরি করতে পারেন যেখানে সর্বোচ্চ ছয়টি ভিন্ন ক্যামেরা কাট বা শট পরিবর্তন করা সম্ভব। এটি দীর্ঘতর এবং আরও অর্থবহ ভিডিও কন্টেন্ট তৈরির পথ প্রশস্ত করেছে, যা নির্মাতাদের সৃজনশীলতাকে নতুন মাত্রা দেবে।

এই সিস্টেমটি সিনেমাটিক ভাষা বুঝতে সক্ষম, যা এস্টাবলিশিং ওয়াইড শট থেকে ইনটেন্স ক্লোজ-আপে যাওয়ার মতো জটিল ট্রানজিশনগুলো সহজ করে তোলে। এমনকি কথোপকথনের সময় শট-রিভার্স-শট বা বিভিন্ন অ্যাঙ্গেল থেকে ক্যামেরা পরিবর্তনের কাজগুলো এটি অত্যন্ত পেশাদারভাবে সম্পন্ন করে।

ভিডিও ৩.০ অমনি মডেলের একটি বিশেষ শক্তি হলো বিভিন্ন কাটের মধ্যেও চরিত্র এবং পরিবেশের অভিন্নতা বজায় রাখা। ক্যামেরা অ্যাঙ্গেল পরিবর্তনের সাথে সাথে চরিত্রের বৈশিষ্ট্য বা পরিবেশের উপাদানগুলো বদলে যায় না বা বিকৃত হয় না, যা পেশাদার ভিডিও নির্মাণের জন্য একটি অপরিহার্য দিক।

ভিজ্যুয়াল কোয়ালিটির ক্ষেত্রে ইমেজ ৩.০ অমনি মডেলটি ২কে (2K) এবং ৪কে (4K) আউটপুট সমর্থন করে। এটি জটিল আলোকসজ্জা এবং বাস্তবসম্মত টেক্সচার ফুটিয়ে তুলতে অসাধারণ পারদর্শিতা দেখায়। বিশেষ করে প্রম্পট অনুযায়ী নিখুঁত ছবি তৈরিতে এটি এখন অনেক বেশি দক্ষ এবং নির্ভরযোগ্য।

জেনারেটিভ মডেলগুলোর জন্য ছবি বা ভিডিওর ভেতরে পাঠ্য বা টেক্সট রেন্ডারিং করা সবসময়ই কঠিন ছিল। তবে ক্লিং ৩.০ রাস্তার সাইনবোর্ড, পোশাকের লোগো বা ডিভাইসের স্ক্রিনে অত্যন্ত স্পষ্ট এবং পাঠযোগ্য টেক্সট প্রদর্শন করতে পারে, যা এই মডেলটিকে অন্যদের থেকে আলাদা করে তুলেছে।

ভিডিও ৩.০ এর মাধ্যমে ১০৮০পি আউটপুট পাওয়া যায়, যা উচ্চ ফ্রেম রেটের কারণে অত্যন্ত মসৃণ গতির নিশ্চয়তা দেয়। এমনকি দ্রুত গতির অ্যাকশন সিকোয়েন্সগুলোতেও এটি ফ্রেমের স্থায়িত্ব বজায় রাখতে সক্ষম, যা দর্শকদের একটি উন্নত মানের ভিজ্যুয়াল অভিজ্ঞতা প্রদান করে।

বর্তমানে ক্লিং ৩.০ মডেলটি ক্লিং এআই ওয়েব ইন্টারফেসের মাধ্যমে একচেটিয়া আর্লি অ্যাক্সেস বা প্রাথমিক ব্যবহারের জন্য উন্মুক্ত করা হয়েছে। ব্যবহারকারীরা সরাসরি এই প্ল্যাটফর্ম থেকে মডেলটির নতুন ফিচারগুলো পরখ করে দেখার সুযোগ পাচ্ছেন।

ডেভেলপার এবং এন্টারপ্রাইজ ব্যবহারের জন্য থার্ড-পার্টি প্রোভাইডার ফ্যাল এআই (Fal AI) এর এপিআই (API) ব্যবহার করে এই মডেলগুলোর সুবিধা গ্রহণ করা যাবে। এর ফলে বিভিন্ন অ্যাপ্লিকেশনে ক্লিং ৩.০-এর শক্তিশালী সক্ষমতাগুলো যুক্ত করা আরও সহজতর হবে।

12 দৃশ্য

উৎসসমূহ

  • TechBullion

  • PRNewswire

  • AI NEWS

  • NDTV

  • YouTube

  • Focal

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।