ভিডিও এআই বেঞ্চমার্কে শিল্প জায়ান্টদের পেছনে ফেলে শীর্ষস্থান দখল করলো রানওয়ে জেন-৪.৫

সম্পাদনা করেছেন: Veronika Radoslavskaya

স্বাধীন এআই স্টার্টআপগুলির মধ্যে অগ্রগণ্য রানওয়ে (Runway) তাদের অত্যাধুনিক টেক্সট-টু-ভিডিও মডেল, রানওয়ে জেন-৪.৫ (Runway Gen-4.5) উন্মোচন করেছে, যা দ্রুত প্রতিযোগিতামূলক ক্ষেত্রটিকে নাড়িয়ে দিয়েছে। এই নতুন মডেলটি বর্তমানে অথরিটেটিভ আর্টিফিশিয়াল অ্যানালাইসিস টেক্সট-টু-ভিডিও বেঞ্চমার্কে ১২৪৭ এর ইলো স্কোর (Elo score) নিয়ে শীর্ষস্থান অধিকার করেছে। এই স্কোর তাদের গুগল-এর ভিয়ো ৩ (Veo 3) এবং ওপেনএআই-এর সোরা ২ প্রো (Sora 2 Pro)-কে সামান্য ব্যবধানে অতিক্রম করেছে। এই সাফল্য প্রমাণ করে যে রানওয়ে ব্যবহারকারী-বান্ধব, নিয়ন্ত্রণযোগ্য এবং ইন্টিগ্রেটেড ওয়ার্কফ্লো টুলের ওপর যে বিশেষ মনোযোগ দিচ্ছে, তা ফলপ্রসূ হয়েছে। এনভিডিয়ার (Nvidia) সাথে সমন্বয় করে অপটিমাইজড হার্ডওয়্যারের ওপর ভিত্তি করে এই টুলগুলো তৈরি করা হয়েছে।

জেন-৪.৫ মডেলটিকে তার পূর্বসূরির তুলনায় দৃশ্যগতভাবে অনেক বেশি সামঞ্জস্যপূর্ণ এবং ব্যবহারকারীর নির্দেশাবলীর প্রতি দ্রুত প্রতিক্রিয়াশীল হিসাবে বর্ণনা করা হয়েছে। এর লক্ষ্য হলো সামগ্রিক চলচ্চিত্র-মানের আউটপুট প্রদান করা, যা কনটেন্ট নির্মাতা এবং বিভিন্ন প্রতিষ্ঠানের সৃজনশীল সম্ভাবনাকে আরও বাড়িয়ে তুলবে। রানওয়ের ঐতিহ্যগত শক্তি নিহিত রয়েছে তাদের বিস্তৃত, ব্রাউজার-ভিত্তিক ইকোসিস্টেমে। এই প্ল্যাটফর্মটি দ্রুত পুনরাবৃত্তি, ক্যামেরার নড়াচড়ার ওপর সৃজনশীল নিয়ন্ত্রণ এবং বিদ্যমান পেশাদার এডিটিং টুলের সাথে নির্বিঘ্ন সংহতকরণের সুযোগ দেয়। ফলস্বরূপ, যে সকল একক নির্মাতা এবং কনটেন্ট এজেন্সি জটিল অবকাঠামোর চেয়ে দ্রুত কর্মপ্রবাহকে বেশি গুরুত্ব দেন, তাদের কাছে এটি বিশেষভাবে পছন্দের।

তবে, এই প্রযুক্তিগত অগ্রগতি সত্ত্বেও, শিল্পের পরিচিত সমস্যাগুলি এখনও বিদ্যমান। রানওয়ে স্বীকার করেছে যে জেন-৪.৫ এখনও কিছু মৌলিক দুর্বলতার সাথে লড়াই করছে, যা বর্তমানে সমস্ত ভিডিও মডেলকেই প্রভাবিত করে। এর মধ্যে অন্যতম হলো কার্যকারণ সম্পর্ক (causality) বোঝার ক্ষেত্রে দুর্বলতা। উদাহরণস্বরূপ, কোনো দরজা ধাক্কা দেওয়ার পরেই সেটি খোলা—এই ধরনের ভৌত ঘটনাগুলি সিস্টেমটি সঠিকভাবে মডেল করতে ব্যর্থ হয়। এছাড়াও, বস্তু স্থায়িত্বের (object permanence) ক্ষেত্রেও সমস্যা দেখা যায়; যখন কোনো বস্তু আড়াল হয়ে যায়, তখন সেটি ক্ষণিকের জন্য অদৃশ্য হয়ে যেতে পারে।

এই মডেলটি একটি 'সাফল্য পক্ষপাতিত্ব' (success bias) প্রদর্শন করে, অর্থাৎ বাস্তবে যা ঘটার সম্ভাবনা তার চেয়ে বেশিবার এটি সফল ক্রিয়াগুলির অনুকরণ করে। এই সমস্যাগুলি স্পষ্টভাবে ইঙ্গিত দেয় যে শিল্প এখনও এমন নির্ভরযোগ্য 'ওয়ার্ল্ড মডেল' তৈরি করতে পারেনি যা বাস্তব বিশ্বের পদার্থবিদ্যাকে সঠিকভাবে অনুকরণ করতে পারে। রানওয়ে এই ক্ষেত্রটিতে ক্রমাগত উন্নয়ন চালিয়ে যাওয়ার পরিকল্পনা করেছে।

এই পরিস্থিতিতে প্রতিযোগিতা তীব্র থেকে তীব্রতর হচ্ছে। গুগল-এর ভিয়ো ৩ নির্দিষ্ট কিছু ক্ষেত্রে, যেমন ডেডিকেটেড ৪কে ফটোরিয়ালিজম এবং ইন্টিগ্রেটেড নেটিভ অডিওর ক্ষেত্রে এখনও এগিয়ে রয়েছে। অন্যদিকে, ওপেনএআই-এর সোরা ২ প্রো জটিল ভৌত সিমুলেশন এবং একাধিক শটের মধ্যে সামঞ্জস্য বজায় রাখার ওপর বেশি জোর দেয়। জেন-৪.৫ ধীরে ধীরে চালু করা হচ্ছে এবং আগামী কয়েক দিনের মধ্যে রানওয়ের সকল ব্যবহারকারীর জন্য এটি সহজলভ্য হবে, যা সমন্বিত সৃজনশীল সরঞ্জামগুলির ক্ষেত্রে রানওয়েকে বেঞ্চমার্ক নেতা হিসাবে তার অবস্থান আরও সুদৃঢ় করবে। এই অগ্রগতি নিঃসন্দেহে ডিজিটাল সৃজনশীলতার দিগন্তকে প্রসারিত করবে।

উৎসসমূহ

  • WinBuzzer

  • Seeking Alpha

  • alphaXiv

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?

আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।