ডিজিটাল চিত্র সম্পাদনায় নতুন দিগন্ত: আলিবাবার Qwen-Image-Edit
সম্পাদনা করেছেন: Veronika Radoslavskaya
প্রযুক্তি বিশ্বে আলোড়ন সৃষ্টি করে আলিবাবার Qwen টিম উন্মোচন করেছে Qwen-Image-Edit, একটি অত্যাধুনিক ওপেন-সোর্স কৃত্রিম বুদ্ধিমত্তা (AI) মডেল যা ডিজিটাল চিত্র সম্পাদনার ক্ষেত্রে বিপ্লব ঘটাতে প্রস্তুত। গত ১৮ আগস্ট, ২০২৫ তারিখে বিশ্বব্যাপী মুক্তিপ্রাপ্ত এই উন্নত টুলটি টেক্সট প্রম্পটের মাধ্যমে জটিল চিত্র সম্পাদনা করতে সক্ষম, যা সরাসরি অ্যাডোবি ফটোশপের মতো পেশাদার সফটওয়্যারগুলির সাথে প্রতিদ্বন্দ্বিতা করছে। বর্তমানে প্রায় ৯০% সৃজনশীল পেশাদার বিশ্বজুড়ে অ্যাডোবি ফটোশপ ব্যবহার করেন।
Qwen-Image-Edit তৈরি হয়েছে ২০ বিলিয়ন প্যারামিটারের Qwen-Image ফাউন্ডেশন মডেলের উপর ভিত্তি করে। এর বিশেষত্ব হলো এর অত্যাধুনিক ডুয়াল-এনকোডিং আর্কিটেকচার। এই উদ্ভাবনী পদ্ধতি Qwen2.5-VL ভিশন-ল্যাঙ্গুয়েজ মডেলের শব্দার্থিক বোঝাপড়ার ক্ষমতা এবং ভ্যারিয়েশনাল অটোএনকোডার (VAE) এর বিস্তারিত পুনর্গঠন শক্তিকে একত্রিত করে। এই ডুয়াল-এনকোডিং প্রক্রিয়া শব্দার্থিক সঙ্গতি এবং ভিজ্যুয়াল বিশ্বস্ততার মধ্যে একটি সূক্ষ্ম ভারসাম্য বজায় রাখে, যা মূল চিত্রের অখণ্ডতা রক্ষা করে সুনির্দিষ্ট সম্পাদনা সম্ভব করে তোলে।
মডেলটি দুটি স্বতন্ত্র সম্পাদনা মোড সরবরাহ করে: সাধারণ শৈলী পরিবর্তনের জন্য সেমান্টিক এডিটিং এবং স্থানীয় ও সুনির্দিষ্ট পরিবর্তনের জন্য অ্যাপিয়ারেন্স এডিটিং। Qwen-Image-Edit-এর একটি উল্লেখযোগ্য অগ্রগতি হলো ছবিতে টেক্সট রেন্ডার এবং সম্পাদনা করার উন্নত ক্ষমতা, যা ইংরেজি এবং চীনা উভয় ভাষাতেই অসাধারণ নির্ভুলতা সহকারে কাজ করে। গ্রাফিক ডিজাইন, বিজ্ঞাপন এবং কন্টেন্ট তৈরির মতো বিভিন্ন ক্ষেত্রে এই ক্ষমতা অত্যন্ত গুরুত্বপূর্ণ, যেখানে সুনির্দিষ্ট টেক্সট সংযোজন অপরিহার্য। বেঞ্চমার্ক অনুসারে, Qwen-Image-Edit চীনা টেক্সটের জন্য ৯৭.২৯% পর্যন্ত একক-অক্ষর রেন্ডারিং নির্ভুলতা অর্জন করেছে, যা Seedream 3.0 এবং GPT Image-এর মতো প্রতিদ্বন্দ্বীদের তুলনায় উল্লেখযোগ্যভাবে উন্নত।
আলিবাবার Qwen-Image-Edit কে Apache 2.0 লাইসেন্সের অধীনে ওপেন-সোর্স মডেল হিসেবে প্রকাশ করার কৌশল শক্তিশালী AI সম্পাদনা সরঞ্জামগুলিতে সকলের প্রবেশাধিকার সহজলভ্য করেছে। এই পদক্ষেপ শুধুমাত্র একটি বিশ্বব্যাপী ডেভেলপার সম্প্রদায়কে এর প্রযুক্তির উপর ভিত্তি করে গড়ে তোলার সুযোগ করে দেয় না, বরং মালিকানাধীন প্ল্যাটফর্মগুলির তুলনায় উদ্ভাবনকে ত্বরান্বিত করে। মডেলটি Hugging Face এবং Qwen Chat-এর মতো প্ল্যাটফর্মে সহজলভ্য, এবং উন্নত স্কেলেবিলিটির জন্য একটি পেইড আলিবাবা ক্লাউড API-এর বিকল্পও রয়েছে।
Qwen-Image-Edit-এর মুক্তি আলিবাবার একটি বিস্তৃত AI ডেভেলপমেন্ট স্ট্যাক তৈরির বৃহত্তর কৌশলের অংশ, যা Qwen3-Thinking (যুক্তি) এবং Wan2.2 (ভিডিও জেনারেশন)-এর মতো পূর্ববর্তী রিলিজগুলির পরে এসেছে। এই উদ্যোগটি এমন একটি ইকোসিস্টেম গড়ে তোলার প্রতি আলিবাবার প্রতিশ্রুতিকে তুলে ধরে যা AI প্রযুক্তিতে দ্রুত অগ্রগতি চালিত করতে পারে। বর্তমানে, AI চিত্র সম্পাদনার প্রতিযোগিতামূলক বাজারে ByteDance এবং Black Forest Labs-এর মতো সংস্থাগুলিও উন্নত সরঞ্জাম তৈরি করছে। অন্যদিকে, Adobe তাদের ফটোশপ স্যুটে 'Harmonize' এবং 'Generative Upscale'-এর মতো বৈশিষ্ট্য যুক্ত করে চলেছে, যা Firefly প্রযুক্তির মাধ্যমে চালিত এবং দ্রুত পরিবর্তনশীল সৃজনশীল সরঞ্জাম বাজারের প্রতি তাদের প্রতিক্রিয়া। এই নতুন প্রযুক্তিগুলি কেবল পেশাদারদের জন্যই নয়, বরং সৃজনশীলতার জগতে নতুন সম্ভাবনার দ্বার উন্মোচন করছে।
উৎসসমূহ
WinBuzzer
Qwen-Image-Edit · Hugging Face
Qwen-Image-Edit - Alibaba Cloud Model Studio
Qwen-Image Technical Report
এই বিষয়ে আরও খবর পড়ুন:
আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?
আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।
