গুগল ডিপমাইন্ডের ‘প্রজেক্ট জিনি’ প্রোটোটাইপ: সীমিত অ্যাক্সেসের মাধ্যমে নতুন দিগন্তের সূচনা

সম্পাদনা করেছেন: Veronika Radoslavskaya

২০২৬ সালের ২৯ জানুয়ারি, গুগল ডিপমাইন্ড তাদের প্রযুক্তিগত গবেষণার এক নতুন মাইলফলক হিসেবে ‘প্রজেক্ট জিনি’ (Project Genie) নামক একটি পরীক্ষামূলক প্রোটোটাইপের সীমিত ব্যবহারের সুযোগ ঘোষণা করেছে। এই বিশেষ সুবিধাটি বর্তমানে শুধুমাত্র মার্কিন যুক্তরাষ্ট্রে বসবাসরত ‘জেমিনি আল্ট্রা’ (Gemini Ultra) গ্রাহকদের জন্য সংরক্ষিত রাখা হয়েছে। এই উদ্ভাবনী প্ল্যাটফর্মটি ব্যবহারকারীদের এমন এক সক্ষমতা প্রদান করে যেখানে তারা সাধারণ টেক্সট প্রম্পট কিংবা স্থির কোনো রেফারেন্স ছবির মাধ্যমে সম্পূর্ণ নতুন এবং পরিবর্তনশীল ডিজিটাল পরিবেশ তৈরি ও সেখানে বিচরণ করতে পারবেন।

প্রজেক্ট জিনির এই বিস্ময়কর কার্যকারিতার নেপথ্যে রয়েছে তিনটি অত্যন্ত শক্তিশালী এবং স্বতন্ত্র কৃত্রিম বুদ্ধিমত্তা সিস্টেমের এক জটিল সমন্বয়। এই হাইব্রিড এআই আর্কিটেকচারটি এমনভাবে ডিজাইন করা হয়েছে যাতে এটি ব্যবহারকারীর কল্পনাকে বাস্তবসম্মত ভিজ্যুয়াল অভিজ্ঞতায় রূপান্তর করতে পারে। এই সিস্টেমের মূল উপাদানগুলো নিচে বিস্তারিত আলোচনা করা হলো:

  • জিনি ৩ (ওয়ার্ল্ড মডেল): এটি গুগল ডিপমাইন্ডের একটি অত্যন্ত শক্তিশালী ফাউন্ডেশনাল মডেল। এর প্রধান কাজ হলো ব্যবহারকারীর ইনপুটের ওপর ভিত্তি করে একটি ভিডিও সিকোয়েন্সের পরবর্তী ফ্রেমগুলো কী হতে পারে তা নিখুঁতভাবে অনুমান করা। এটি একটি সুসংগত পরিবেশ তৈরি করে যেখানে পদার্থবিজ্ঞানের মৌলিক নিয়মগুলো (simplified physics) কার্যকর থাকে, ফলে ব্যবহারকারীর অভিজ্ঞতা হয় অত্যন্ত সাবলীল।
  • ন্যানো ব্যানানা প্রো: এটি মূলত জেমিনি-চালিত একটি বিশেষায়িত ইমেজ মডেল ভেরিয়েন্ট। ব্যবহারকারী যখন কোনো প্রম্পট প্রদান করেন, তখন এই মডেলটি সেই প্রম্পটকে একটি উচ্চ-মানের ভিজ্যুয়াল বেসলাইনে রূপান্তর করে। এই প্রাথমিক চিত্রটিই মূলত পুরো সিমুলেশন প্রক্রিয়াটি শুরু করার জন্য প্রয়োজনীয় ভিত্তি হিসেবে কাজ করে।
  • জেমিনি (অরকেস্ট্রেটর): এই অংশটি পুরো সিস্টেমের ‘মস্তিষ্ক’ বা রিজনিং ইঞ্জিন হিসেবে কাজ করে। এটি ক্যামেরার অ্যাঙ্গেল বা পরিপ্রেক্ষিত এবং ডিজিটাল চরিত্রের বিভিন্ন কর্মকাণ্ড পরিচালনা করে। এর ফলে ব্যবহারকারী যখন কোনো কমান্ড দেন, তখন পরিবেশটি অত্যন্ত দ্রুত এবং কার্যকরভাবে প্রতিক্রিয়া দেখায়, যা নেভিগেশনকে করে তোলে প্রাণবন্ত।

প্রথাগত থ্রিডি গেম ইঞ্জিনের সাথে প্রজেক্ট জিনির একটি মৌলিক পার্থক্য রয়েছে; এটি মূলত একটি ইন্টারঅ্যাক্টিভ ভিডিও-স্ট্রিম এনভায়রনমেন্ট তৈরি করে। এই প্রযুক্তিটি রিয়েল-টাইমে ফ্রেমের একটি নিরবচ্ছিন্ন প্রবাহ তৈরি করতে সক্ষম যা ব্যবহারকারীর প্রতিটি মুভমেন্টের সাথে সাথে পরিবর্তিত হয়। এর ফলে ব্যবহারকারীরা এক ধরনের পরাবাস্তব বা স্বপ্নের মতো পরিবেশ অন্বেষণের অভিজ্ঞতা লাভ করেন, যা আগে কখনো সম্ভব ছিল না।

বর্তমানে এই টুলটি একটি পরীক্ষামূলক পর্যায়ে রয়েছে, যার ফলে এর ব্যবহারের ক্ষেত্রে কিছু নির্দিষ্ট প্রযুক্তিগত সীমাবদ্ধতা বজায় রাখা হয়েছে। এই সীমাবদ্ধতাগুলো মূলত সিস্টেমের স্থিতিশীলতা এবং পারফরম্যান্স নিশ্চিত করার জন্য রাখা হয়েছে:

  • সেশনের সময়সীমা: রিয়েল-টাইমে ভিডিও জেনারেশন প্রক্রিয়াটি অত্যন্ত উচ্চ কম্পিউটেশনাল ক্ষমতার দাবি রাখে। এই কারণে প্রতিটি ইন্টারঅ্যাক্টিভ সেশন বর্তমানে সর্বোচ্চ ৬০ সেকেন্ডের জন্য সীমাবদ্ধ করা হয়েছে।
  • রেজোলিউশন ও ফ্রেম রেট: এই ভার্চুয়াল পরিবেশগুলো বর্তমানে ৭২০পি (720p) রেজোলিউশনে এবং প্রতি সেকেন্ডে ২৪ ফ্রেম (24 FPS) গতিতে রেন্ডার করা হয়, যা একটি মানসম্মত ভিজ্যুয়াল অভিজ্ঞতা নিশ্চিত করে।
  • রিমিক্সিং বৈশিষ্ট্য: ব্যবহারকারীদের সৃজনশীলতাকে আরও বাড়িয়ে তুলতে এতে ‘রিমিক্সিং’ নামক একটি ফিচার যুক্ত করা হয়েছে। এর মাধ্যমে ব্যবহারকারীরা আগে থেকে তৈরি করা কোনো বিশ্বের শৈল্পিক ধরন বা পরিবেশগত নিয়মগুলো পরিবর্তন করে সেটিকে নতুন রূপ দিতে পারেন।

গুগল ডিপমাইন্ডের রিসার্চ ডিরেক্টর শ্লোমি ফ্রুচটার (Shlomi Fruchter) এই প্রজেক্টের কৌশলগত গুরুত্ব ব্যাখ্যা করতে গিয়ে বলেন যে, এই প্রোটোটাইপের মূল লক্ষ্য হলো এমন কিছু অনন্য ইন্টারঅ্যাক্টিভ সক্ষমতা উন্মোচন করা যা সাধারণ রেন্ডারিং পদ্ধতির মাধ্যমে অর্জন করা অসম্ভব। এই পাবলিক টেস্টিং বা জনসমক্ষে পরীক্ষার মাধ্যমে তারা মূলত বিপুল পরিমাণ ডেটা সংগ্রহ করতে চান যা এআই-এর ভবিষ্যৎ উন্নয়নে কাজে লাগবে।

এই প্রকল্পের দীর্ঘমেয়াদী লক্ষ্য হলো ওয়ার্ল্ড মডেলগুলোর পদার্থবিজ্ঞান এবং স্থানিক যুক্তি (spatial logic) বোঝার ক্ষমতাকে আরও সমৃদ্ধ করা। এটি মূলত রোবোটিক্স এবং অত্যন্ত জটিল সিমুলেশন পরিচালনার জন্য আরও নিরাপদ এবং দক্ষ ‘এমবডিড এআই’ (embodied AI) এজেন্ট তৈরির পথে একটি বৈপ্লবিক পদক্ষেপ। এই গবেষণার মাধ্যমে প্রাপ্ত তথ্য ভবিষ্যতে কৃত্রিম বুদ্ধিমত্তাকে বাস্তব জগতের জটিলতাগুলো আরও ভালোভাবে বুঝতে সাহায্য করবে।

15 দৃশ্য

উৎসসমূহ

  • Cadena 3 Argentina

  • The Tech Buzz

  • The Tech Buzz

  • Android Authority

  • The Tech Buzz

  • Google DeepMind: The Podcast

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।