एंथ्रोपिक का क्लॉड ओपस 4.5: एजेंटिक कोडिंग और दक्षता में नया मानक
द्वारा संपादित: Veronika Radoslavskaya
एंथ्रोपिक ने क्लॉड ओपस 4.5 (Claude Opus 4.5) पेश किया है, जो इस मॉडल को अब तक का उनका सबसे सक्षम मॉडल बनाता है और स्वायत्त एजेंटों तथा जटिल कंप्यूटर उपयोग के लिए एक नया उद्योग मानक स्थापित करता है। यह रिलीज़ अधिकतम क्षमता को टोकन दक्षता में भारी वृद्धि के साथ संतुलित करने पर केंद्रित है, जिससे फ्लैगशिप प्रदर्शन वास्तविक दुनिया के उत्पादन वर्कलोड के लिए अधिक विश्वसनीय और किफायती बन जाता है।
ओपस 4.5 की परिभाषित विशेषता लंबी अवधि के, स्वायत्त कार्यों में इसकी बेहतर स्थिरता और लचीलापन है। जबकि पिछले मॉडल अक्सर बहु-चरणीय तर्क के साथ संघर्ष करते थे, ओपस 4.5 निरंतर, जटिल कार्यप्रवाहों—बड़े पैमाने पर कोड रिफैक्टरिंग से लेकर मल्टी-सिस्टम बग्स को ठीक करने तक—पर काफी बेहतर प्रदर्शन दिखाता है। यह सुधार इसके तर्क में गहरी स्थिरता और बारीकियों को प्रकट करता है। एक उल्लेखनीय परिदृश्य में, जिसमें एक एयरलाइन ग्राहक सेवा सिमुलेशन शामिल था, ओपस 4.5 ने एक जटिल अनुरोध का एक गैर-मानक लेकिन वैध समाधान प्रदान किया, एक ऐसा समाधान जिसे औपचारिक परीक्षण प्रणाली ने ध्यान में नहीं रखा था और शुरू में गलत के रूप में चिह्नित किया था। अस्पष्टता को रचनात्मक रूप से नेविगेट करने और अपेक्षित रास्तों के बाहर समस्याओं को हल करने की यह क्षमता वास्तविक दुनिया के अनुप्रयोग में एक महत्वपूर्ण प्रगति को दर्शाती है।
डेवलपर्स के लिए, ओपस 4.5 एक प्रभावशाली नया बेंचमार्क स्थापित करता है। यह SWE-bench Verified जैसे वास्तविक दुनिया के सॉफ्टवेयर इंजीनियरिंग परीक्षणों पर एक नया अत्याधुनिक (state-of-the-art) बेंचमार्क सेट करता है, जो सॉफ्टवेयर बग्स को ठीक करने में पिछले मॉडलों की तुलना में बेहतर प्रदर्शन करता है। यह तकनीकी क्षमता आश्चर्यजनक टोकन दक्षता के साथ जुड़ी हुई है। एंथ्रोपिक के दस्तावेज़ दिखाते हैं कि विशिष्ट उच्च-जटिलता वाले कार्यों में, ओपस 4.5 समान परिणाम प्राप्त करने के लिए ओपस और सॉनेट परिवारों के पुराने मॉडलों की तुलना में 76% तक कम आउटपुट टोकन का उपयोग करता है। यह दक्षता एजेंटिक वर्कफ़्लो—स्वतंत्र रूप से कार्य करने के लिए डिज़ाइन किए गए एआई प्रोग्राम—बनाने वाले डेवलपर्स के लिए महत्वपूर्ण है, क्योंकि यह मौलिक रूप से विलंबता और परिचालन व्यय दोनों को कम करती है।
उपयोगकर्ताओं को गति और गहराई के इस संतुलन पर अंतिम नियंत्रण देने के लिए, एंथ्रोपिक ने 'प्रयास पैरामीटर' (Effort Parameter) पेश किया। यह डेवलपर्स को यह निर्दिष्ट करने की अनुमति देता है कि क्या उन्हें "कम" प्रयास (उच्च-मात्रा स्वचालन के लिए सबसे तेज़ और सबसे टोकन-कुशल प्रतिक्रिया) या "उच्च" प्रयास (जटिल विश्लेषण के लिए अधिकतम पूर्णता और तर्क की गहराई) की आवश्यकता है। मॉडल की आंतरिक प्रक्रिया पर यह समायोज्य नियंत्रण व्यवसायों को किसी भी दिए गए कार्य की सटीक आवश्यकताओं और बजट के लिए एआई के प्रदर्शन को सटीक रूप से तैयार करने की अनुमति देता है। मॉडल 200,000-टोकन संदर्भ विंडो (context window) बनाए रखता है, जो गहन दस्तावेज़ अनुसंधान के लिए पर्याप्त है। इसके अलावा, मॉडल में परिष्कृत संदर्भ प्रबंधन की सुविधा है, जो स्वचालित रूप से पिछले वार्तालाप इतिहास को सारांशित और प्राथमिकता देता है, जिससे लंबे उपयोगकर्ता सत्रों में और क्लॉड फॉर एक्सेल (Claude for Excel) तथा विभिन्न आईडीई भागीदारों जैसे प्रमुख एकीकरणों के माध्यम से अत्यधिक सुसंगत प्रदर्शन होता है।
स्रोतों
@businessline
Mint
Medium
Anthropic
Wikipedia
CNET
इस विषय पर और अधिक समाचार पढ़ें:
जेमिनी में सिंथआईडी और सी2पीए का गूगल का एकीकरण: एआई स्रोत सत्यापन को आम लोगों तक पहुंचाना
अलीबाबा ने क्वार्क एआई ग्लासेज के साथ स्मार्ट ग्लास की दौड़ में प्रवेश किया, जो पूरे दिन की बैटरी लाइफ पर ज़ोर देता है
पर्प्लेक्सिटी ने एआई सहायकों के लिए मेमोरी की शुरुआत की, मॉडलों में व्यक्तिगत संदर्भ को बढ़ावा दिया
क्या आपने कोई गलती या अशुद्धि पाई?
हम जल्द ही आपकी टिप्पणियों पर विचार करेंगे।
