ভিডিও তৈরি ও সম্পাদনার জন্য বিশ্বের প্রথম সমন্বিত মডেল: কুয়াইশৌ-এর ক্লিং ভিডিও ও১ উন্মোচন

22:08, 06 ডিসেম্বর

সম্পাদনা করেছেন: Veronika Radoslavskaya

কৃত্রিম বুদ্ধিমত্তা (এআই) চালিত ভিডিও জগতে এক বিশাল পরিবর্তন এনেছে কুয়াইশৌ (Kuaishou)-এর নতুন ভিত্তি মডেল, ক্লিং ভিডিও ও১ (Kling Video O1), যা 'ওমনি ওয়ান' (Omni One) নামেও পরিচিত। এই মডেলটিকে বিশ্বের প্রথম সমন্বিত মাল্টিমোডাল ইঞ্জিন হিসেবে স্থাপন করা হয়েছে, যা ভিডিও তৈরি এবং উন্নত সম্পাদনা—উভয় কাজই এককভাবে সম্পন্ন করতে সক্ষম। এই উদ্ভাবনের ফলে সৃজনশীল কাজের প্রক্রিয়া আর খণ্ডিত থাকছে না; নির্মাতাদের এখন সৃষ্টি, সম্পাদনা এবং পরিমার্জনের জন্য আলাদা আলাদা সরঞ্জামের মধ্যে বারবার যাতায়াত করতে হবে না।

ও১ মডেলটির মূল প্রযুক্তিগত সাফল্য হলো এর অনন্য ক্ষমতা, যা একটি একক কর্মপ্রবাহের মধ্যে বিভিন্ন ধরনের ইনপুট গ্রহণ করতে পারে। এর মধ্যে রয়েছে লিখিত নির্দেশাবলী (টেক্সট প্রম্পট), একাধিক রেফারেন্স ছবি (সাতটি পর্যন্ত), এবং বিদ্যমান ভিডিও ক্লিপ। এই সমন্বিত মাল্টিমোডাল ইঞ্জিন নির্মাতাদের উচ্চ-মানের ১০৮০পি রেজোলিউশনের দৃশ্য তৈরি করার সুযোগ দেয়, এবং তাৎক্ষণিকভাবে প্রাকৃতিক ভাষার নির্দেশের মাধ্যমে পোস্ট-প্রোডাকশনের সম্পাদনা করার ক্ষমতাও প্রদান করে। ব্যবহারকারীরা এখন সহজেই নির্দেশ দিতে পারেন, যেমন— 'পেছনের পথচারীকে সরিয়ে দাও', 'দিনের আলো পরিবর্তন করে গোধূলি করো', অথবা 'প্রধান চরিত্রের পোশাক বদলে দাও'। মডেলটি দৃশ্যের ভিজ্যুয়াল প্রেক্ষাপট সঠিকভাবে বুঝে এই পরিবর্তনগুলো নিখুঁতভাবে কার্যকর করতে পারে।

ক্লিং ভিডিও ও১ দীর্ঘদিনের শিল্প চ্যালেঞ্জগুলোর মোকাবিলা করতে প্রস্তুত, বিশেষ করে ভিজ্যুয়াল সামঞ্জস্য বজায় রাখার ক্ষেত্রে। এই মডেলটি এমনভাবে নকশা করা হয়েছে যাতে দীর্ঘ সিকোয়েন্স এবং জটিল ক্যামেরা মুভমেন্টের সময়ও চরিত্রের ধারাবাহিকতা এবং শৈলী ব্যতিক্রমীভাবে বজায় থাকে। এটি অনেকটা মানব পরিচালকের মতো কাজ করে, যা দৃশ্যে দৃশ্যমান 'বিচ্যুতি' বা ঝলকানিজনিত ত্রুটি (flickering artifacts) প্রতিরোধ করে। এছাড়াও, মডেলটি 'শুরু এবং শেষ ফ্রেম নিয়ন্ত্রণ' (Start and End Frame control)-এর মতো সূক্ষ্ম নিয়ন্ত্রণের সুবিধা দেয়। এর মাধ্যমে সম্পাদকরা সুনির্দিষ্টভাবে নির্ধারণ করতে পারেন একটি শট কখন শুরু হবে এবং কখন শেষ হবে, যা মসৃণ রূপান্তর এবং স্থির চিত্রের নিখুঁত অ্যানিমেশন সম্ভব করে তোলে। যদিও সাধারণত প্রাথমিক ক্লিপগুলো ৫ থেকে ১০ সেকেন্ডের হয়, ও১-এর স্থাপত্য দুই মিনিট পর্যন্ত দীর্ঘ এবং আরও সুসংহত আখ্যানমূলক ক্লিপ তৈরি করার ক্ষমতা রাখে বলে জানা গেছে।

প্রযুক্তিগত দিক থেকে, এই মডেলে উন্নত প্রম্পট বিশ্লেষণ এবং পদার্থবিদ্যা বোঝার জন্য একটি 'চেইন-অফ-থট' (CoT) রিজনিং সিস্টেম অন্তর্ভুক্ত করা হয়েছে। বেঞ্চমার্ক পরীক্ষায় দেখা গেছে, জটিল রূপান্তর কাজের ক্ষেত্রে এটি গুগল ভিও ৩.১ (Google Veo 3.1) এবং রানওয়ে অ্যালেফ (Runway Aleph)-এর মতো প্রতিযোগীদের তুলনায় উল্লেখযোগ্যভাবে ভালো পারফর্ম করে। টেক্সট-টু-ভিডিও তৈরি থেকে শুরু করে দৃশ্য সম্প্রসারণ এবং সম্পাদনা—এই সাতটি মূল সৃজনশীল ক্ষমতাকে একীভূত করার মাধ্যমে, ক্লিং ভিডিও ও১ পেশাদার কর্মদক্ষতার জন্য একটি নতুন মানদণ্ড স্থাপন করেছে। এটি নিশ্চিত করে যে ধারণা থেকে চূড়ান্ত কাট পর্যন্ত গুণমান এবং ধারাবাহিকতা বজায় থাকবে।

Kling

Multimodal AI

Generative AI

Text-to-Video

45 দৃশ্য

উৎসসমূহ

מגזין גאדג'טים וטכנולוגיה - Gadgety.co.il | גאדג'טי
Kling's Video O1 launches as the first all-in-one video model for generation and editing
Kling AI Launches O1, the Industry's First Unified Multimodal Video Model, Revolutionizing Content Creation and Editing - Barchart.com
Kling AI releases unified video model - Kr Asia
'Nano Banana' of AI Video: Chinese platform Kling AI Launches O1 AI Video Editing Model
Creativity AI #52: Runway claims the top spot, Kling goes multimodal, and Midjourney rethinks its UI - Medium

এই বিষয়ে আরও খবর পড়ুন:

06 ফেব্রুয়ারি

OpenAI-এর নতুন উদ্ভাবন GPT-5.3 Codex: স্ব-উন্নয়ন এবং উচ্চতর কর্মক্ষমতার এক নতুন মাইলফলক

06 ফেব্রুয়ারি

কুয়াইশু উন্মোচন করল ক্লিং এআই ৩.০: ইউনিফাইড মাল্টিমোডাল আর্কিটেকচার এবং নেটিভ অডিওর সমন্বয়

05 ফেব্রুয়ারি

অ্যানথ্রোপিক উন্মোচন করল ক্লড ওপাস ৪.৬: এজেন্ট টিম এবং ১ মিলিয়ন টোকেন কনটেক্সটের নতুন দিগন্ত

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।