গুগলের জেমিনি ২.৫ ফ্ল্যাশ ইমেজ: সৃজনশীলতার নতুন দিগন্ত

11:05, 03 অক্টোবর

সম্পাদনা করেছেন: gaya ❤️ one

প্রযুক্তি বিশ্বে নতুন আলোড়ন সৃষ্টি করে গুগল তাদের অত্যাধুনিক এআই মডেল জেমিনি ২.৫ ফ্ল্যাশ ইমেজ (Gemini 2.5 Flash Image) উন্মোচন করেছে। ২ অক্টোবর, ২০২৫ তারিখে সাধারণ ডেভেলপার এবং কর্পোরেট সংস্থাগুলোর জন্য এটি উন্মুক্ত করা হয়েছে। জেমিনি এপিআই (Gemini API), গুগল এআই স্টুডিও (Google AI Studio) এবং ভার্টেক্স এআই (Vertex AI)-এর মাধ্যমে এই উৎপাদন-প্রস্তুত টুলটি এখন সকলের জন্য উপলব্ধ।

এই নতুন মডেলটি ১০টি ভিন্ন অ্যাসপেক্ট রেশিও সমর্থন করে, যা সিনেমাটিক ল্যান্ডস্কেপ থেকে শুরু করে সোশ্যাল মিডিয়ার উল্লম্ব ফরম্যাট পর্যন্ত বিভিন্ন প্ল্যাটফর্মের জন্য উপযুক্ত। এর একটি উল্লেখযোগ্য উন্নতি হলো উন্নত ক্যারেক্টার কনসিস্টেন্সি (character consistency), যা এআই ইমেজ মডেলগুলির একটি সাধারণ চ্যালেঞ্জ মোকাবিলা করে। এর ফলে ছবি সম্পাদনার সময় মূল চরিত্রের চেহারা অপরিবর্তিত থাকে। জেমিনি ২.৫ ফ্ল্যাশ ইমেজের একটি বিশেষ বৈশিষ্ট্য হলো এর নেটিভ মাল্টিমোডাল ক্ষমতা, যা টেক্সট এবং ছবি একইসাথে প্রক্রিয়া করতে পারে। এর ফলে আরও সুনির্দিষ্ট এবং সামঞ্জস্যপূর্ণ সম্পাদনা সম্ভব হয়।

মূল্য নির্ধারণের ক্ষেত্রে, প্রতি ছবির জন্য $০.০৩৯ এবং প্রতি মিলিয়ন আউটপুট টোকেনের জন্য $৩০ ধার্য করা হয়েছে, যা ভার্টেক্স এআই-এর মাধ্যমে কর্পোরেট গ্রহণে উৎসাহিত করবে। প্রাথমিক ব্যবহারকারীরা এর অনন্য ক্ষমতাগুলির প্রশংসা করেছেন। এআই স্টার্টআপ কার্টহুইল (Cartwheel) জানিয়েছে যে মডেলটি যেকোনো ক্যামেরা অ্যাঙ্গেল থেকে জটিল পোজ পরিচালনা করতে সক্ষম। কার্টহুইলের সহ-প্রতিষ্ঠাতা অ্যান্ড্রু ক্যার (Andrew Carr) উল্লেখ করেছেন যে এটি পোজের প্রতি বিশ্বস্ততা এবং 'বিশ্ব জ্ঞান' (world knowledge) উভয়ই প্রদান করতে পারে, যা অন্যান্য মডেলগুলির জন্য একটি কঠিন কাজ ছিল।

এই লঞ্চটি একটি প্রতিযোগিতামূলক বাজারে গুগলের কৌশলগত পদক্ষেপ। ওপেনএআই (OpenAI)-এর জিপিটি-৪ও (GPT-4o) ইমেজ জেনারেটরকে চ্যাটজিপিটি (ChatGPT)-তে একীভূত করার ফলে এই বাজার আরও প্রতিদ্বন্দ্বিতামূলক হয়ে উঠেছে। গুগল সরাসরি তাদের চ্যাট অ্যাপের মাধ্যমে ব্যাপক ব্যবহারকারীকে লক্ষ্য করে এই বাজারে আধিপত্য বিস্তারের চেষ্টা করছে। ডিপফেক (deepfake) প্রযুক্তির অপব্যবহার রোধে, গুগল জেনারেট করা সমস্ত কন্টেন্টে দৃশ্যমান এবং অদৃশ্য সিন্থআইডি (SynthID) ওয়াটারমার্ক (watermark) প্রয়োগ করছে, যা স্পষ্টভাবে এআই-এর উৎস নির্দেশ করবে। এটি প্রতিদ্বন্দ্বীদের থেকে আলাদা, যারা কপিরাইট মামলার সম্মুখীন হচ্ছে।

ব্যবহারকারী-বান্ধব সম্পাদনা সরঞ্জামগুলিকে তাদের প্রধান এআই পণ্যে একীভূত করার মাধ্যমে, গুগল জেমিনিকে একটি সামগ্রিক সৃজনশীল ইঞ্জিন হিসেবে posicion করছে। এই পদক্ষেপটি দ্রুত পরিবর্তনশীল জেনারেটিভ এআই (generative AI) ক্ষেত্রে মূলধারার ব্যবহারকারীদের আস্থা অর্জনের জন্য সহজলভ্যতা এবং বিশ্বাসের উপর একটি বাজি।

উৎসসমূহ

WinBuzzer
Gemini Flash - Google DeepMind
Introducing Gemini 2.5 Flash Image, our state-of-the-art image model
Building next-gen visuals with Gemini 2.5 Flash Image (aka nano-banana) on Vertex AI
Google I/O 2025: Updates to Gemini 2.5 from Google DeepMind
Release notes | Gemini API | Google AI for Developers

এই বিষয়ে আরও খবর পড়ুন:

21 নভেম্বর

পারপ্লেক্সিটি কমেট, এআই-নেটিভ ব্রাউজার, অবশেষে অ্যান্ড্রয়েডে উন্মোচিত

19 নভেম্বর

গুগল জেমিনি ৩ উন্মোচন: কৃত্রিম বুদ্ধিমত্তার নতুন সক্ষমতা

17 নভেম্বর

X প্ল্যাটফর্মের নতুন এনক্রিপ্টেড মেসেজিং ও কলিং ব্যবস্থা 'চ্যাট'-এর সূচনা

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?

আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।

বিজ্ঞপ্তি কেন্দ্র

বিজ্ঞপ্তি কেন্দ্র

গুগলের জেমিনি ২.৫ ফ্ল্যাশ ইমেজ: সৃজনশীলতার নতুন দিগন্ত

উৎসসমূহ

এই বিষয়ে আরও খবর পড়ুন: