ভিডিও তৈরি ও সম্পাদনার জন্য বিশ্বের প্রথম সমন্বিত মডেল: কুয়াইশৌ-এর ক্লিং ভিডিও ও১ উন্মোচন

সম্পাদনা করেছেন: Veronika Radoslavskaya

কৃত্রিম বুদ্ধিমত্তা (এআই) চালিত ভিডিও জগতে এক বিশাল পরিবর্তন এনেছে কুয়াইশৌ (Kuaishou)-এর নতুন ভিত্তি মডেল, ক্লিং ভিডিও ও১ (Kling Video O1), যা 'ওমনি ওয়ান' (Omni One) নামেও পরিচিত। এই মডেলটিকে বিশ্বের প্রথম সমন্বিত মাল্টিমোডাল ইঞ্জিন হিসেবে স্থাপন করা হয়েছে, যা ভিডিও তৈরি এবং উন্নত সম্পাদনা—উভয় কাজই এককভাবে সম্পন্ন করতে সক্ষম। এই উদ্ভাবনের ফলে সৃজনশীল কাজের প্রক্রিয়া আর খণ্ডিত থাকছে না; নির্মাতাদের এখন সৃষ্টি, সম্পাদনা এবং পরিমার্জনের জন্য আলাদা আলাদা সরঞ্জামের মধ্যে বারবার যাতায়াত করতে হবে না।

ও১ মডেলটির মূল প্রযুক্তিগত সাফল্য হলো এর অনন্য ক্ষমতা, যা একটি একক কর্মপ্রবাহের মধ্যে বিভিন্ন ধরনের ইনপুট গ্রহণ করতে পারে। এর মধ্যে রয়েছে লিখিত নির্দেশাবলী (টেক্সট প্রম্পট), একাধিক রেফারেন্স ছবি (সাতটি পর্যন্ত), এবং বিদ্যমান ভিডিও ক্লিপ। এই সমন্বিত মাল্টিমোডাল ইঞ্জিন নির্মাতাদের উচ্চ-মানের ১০৮০পি রেজোলিউশনের দৃশ্য তৈরি করার সুযোগ দেয়, এবং তাৎক্ষণিকভাবে প্রাকৃতিক ভাষার নির্দেশের মাধ্যমে পোস্ট-প্রোডাকশনের সম্পাদনা করার ক্ষমতাও প্রদান করে। ব্যবহারকারীরা এখন সহজেই নির্দেশ দিতে পারেন, যেমন— 'পেছনের পথচারীকে সরিয়ে দাও', 'দিনের আলো পরিবর্তন করে গোধূলি করো', অথবা 'প্রধান চরিত্রের পোশাক বদলে দাও'। মডেলটি দৃশ্যের ভিজ্যুয়াল প্রেক্ষাপট সঠিকভাবে বুঝে এই পরিবর্তনগুলো নিখুঁতভাবে কার্যকর করতে পারে।

ক্লিং ভিডিও ও১ দীর্ঘদিনের শিল্প চ্যালেঞ্জগুলোর মোকাবিলা করতে প্রস্তুত, বিশেষ করে ভিজ্যুয়াল সামঞ্জস্য বজায় রাখার ক্ষেত্রে। এই মডেলটি এমনভাবে নকশা করা হয়েছে যাতে দীর্ঘ সিকোয়েন্স এবং জটিল ক্যামেরা মুভমেন্টের সময়ও চরিত্রের ধারাবাহিকতা এবং শৈলী ব্যতিক্রমীভাবে বজায় থাকে। এটি অনেকটা মানব পরিচালকের মতো কাজ করে, যা দৃশ্যে দৃশ্যমান 'বিচ্যুতি' বা ঝলকানিজনিত ত্রুটি (flickering artifacts) প্রতিরোধ করে। এছাড়াও, মডেলটি 'শুরু এবং শেষ ফ্রেম নিয়ন্ত্রণ' (Start and End Frame control)-এর মতো সূক্ষ্ম নিয়ন্ত্রণের সুবিধা দেয়। এর মাধ্যমে সম্পাদকরা সুনির্দিষ্টভাবে নির্ধারণ করতে পারেন একটি শট কখন শুরু হবে এবং কখন শেষ হবে, যা মসৃণ রূপান্তর এবং স্থির চিত্রের নিখুঁত অ্যানিমেশন সম্ভব করে তোলে। যদিও সাধারণত প্রাথমিক ক্লিপগুলো ৫ থেকে ১০ সেকেন্ডের হয়, ও১-এর স্থাপত্য দুই মিনিট পর্যন্ত দীর্ঘ এবং আরও সুসংহত আখ্যানমূলক ক্লিপ তৈরি করার ক্ষমতা রাখে বলে জানা গেছে।

প্রযুক্তিগত দিক থেকে, এই মডেলে উন্নত প্রম্পট বিশ্লেষণ এবং পদার্থবিদ্যা বোঝার জন্য একটি 'চেইন-অফ-থট' (CoT) রিজনিং সিস্টেম অন্তর্ভুক্ত করা হয়েছে। বেঞ্চমার্ক পরীক্ষায় দেখা গেছে, জটিল রূপান্তর কাজের ক্ষেত্রে এটি গুগল ভিও ৩.১ (Google Veo 3.1) এবং রানওয়ে অ্যালেফ (Runway Aleph)-এর মতো প্রতিযোগীদের তুলনায় উল্লেখযোগ্যভাবে ভালো পারফর্ম করে। টেক্সট-টু-ভিডিও তৈরি থেকে শুরু করে দৃশ্য সম্প্রসারণ এবং সম্পাদনা—এই সাতটি মূল সৃজনশীল ক্ষমতাকে একীভূত করার মাধ্যমে, ক্লিং ভিডিও ও১ পেশাদার কর্মদক্ষতার জন্য একটি নতুন মানদণ্ড স্থাপন করেছে। এটি নিশ্চিত করে যে ধারণা থেকে চূড়ান্ত কাট পর্যন্ত গুণমান এবং ধারাবাহিকতা বজায় থাকবে।

13 দৃশ্য

উৎসসমূহ

  • מגזין גאדג'טים וטכנולוגיה - Gadgety.co.il | גאדג'טי

  • Kling's Video O1 launches as the first all-in-one video model for generation and editing

  • Kling AI Launches O1, the Industry's First Unified Multimodal Video Model, Revolutionizing Content Creation and Editing - Barchart.com

  • Kling AI releases unified video model - Kr Asia

  • 'Nano Banana' of AI Video: Chinese platform Kling AI Launches O1 AI Video Editing Model

  • Creativity AI #52: Runway claims the top spot, Kling goes multimodal, and Midjourney rethinks its UI - Medium

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?

আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।