एंथ्रोपिक का क्लॉड ओपस 4.5: एजेंटिक कोडिंग और दक्षता में नया मानक

15:56, 25 नवम्बर

द्वारा संपादित: Veronika Radoslavskaya

एंथ्रोपिक ने क्लॉड ओपस 4.5 (Claude Opus 4.5) पेश किया है, जो इस मॉडल को अब तक का उनका सबसे सक्षम मॉडल बनाता है और स्वायत्त एजेंटों तथा जटिल कंप्यूटर उपयोग के लिए एक नया उद्योग मानक स्थापित करता है। यह रिलीज़ अधिकतम क्षमता को टोकन दक्षता में भारी वृद्धि के साथ संतुलित करने पर केंद्रित है, जिससे फ्लैगशिप प्रदर्शन वास्तविक दुनिया के उत्पादन वर्कलोड के लिए अधिक विश्वसनीय और किफायती बन जाता है।

ओपस 4.5 की परिभाषित विशेषता लंबी अवधि के, स्वायत्त कार्यों में इसकी बेहतर स्थिरता और लचीलापन है। जबकि पिछले मॉडल अक्सर बहु-चरणीय तर्क के साथ संघर्ष करते थे, ओपस 4.5 निरंतर, जटिल कार्यप्रवाहों—बड़े पैमाने पर कोड रिफैक्टरिंग से लेकर मल्टी-सिस्टम बग्स को ठीक करने तक—पर काफी बेहतर प्रदर्शन दिखाता है। यह सुधार इसके तर्क में गहरी स्थिरता और बारीकियों को प्रकट करता है। एक उल्लेखनीय परिदृश्य में, जिसमें एक एयरलाइन ग्राहक सेवा सिमुलेशन शामिल था, ओपस 4.5 ने एक जटिल अनुरोध का एक गैर-मानक लेकिन वैध समाधान प्रदान किया, एक ऐसा समाधान जिसे औपचारिक परीक्षण प्रणाली ने ध्यान में नहीं रखा था और शुरू में गलत के रूप में चिह्नित किया था। अस्पष्टता को रचनात्मक रूप से नेविगेट करने और अपेक्षित रास्तों के बाहर समस्याओं को हल करने की यह क्षमता वास्तविक दुनिया के अनुप्रयोग में एक महत्वपूर्ण प्रगति को दर्शाती है।

डेवलपर्स के लिए, ओपस 4.5 एक प्रभावशाली नया बेंचमार्क स्थापित करता है। यह SWE-bench Verified जैसे वास्तविक दुनिया के सॉफ्टवेयर इंजीनियरिंग परीक्षणों पर एक नया अत्याधुनिक (state-of-the-art) बेंचमार्क सेट करता है, जो सॉफ्टवेयर बग्स को ठीक करने में पिछले मॉडलों की तुलना में बेहतर प्रदर्शन करता है। यह तकनीकी क्षमता आश्चर्यजनक टोकन दक्षता के साथ जुड़ी हुई है। एंथ्रोपिक के दस्तावेज़ दिखाते हैं कि विशिष्ट उच्च-जटिलता वाले कार्यों में, ओपस 4.5 समान परिणाम प्राप्त करने के लिए ओपस और सॉनेट परिवारों के पुराने मॉडलों की तुलना में 76% तक कम आउटपुट टोकन का उपयोग करता है। यह दक्षता एजेंटिक वर्कफ़्लो—स्वतंत्र रूप से कार्य करने के लिए डिज़ाइन किए गए एआई प्रोग्राम—बनाने वाले डेवलपर्स के लिए महत्वपूर्ण है, क्योंकि यह मौलिक रूप से विलंबता और परिचालन व्यय दोनों को कम करती है।

उपयोगकर्ताओं को गति और गहराई के इस संतुलन पर अंतिम नियंत्रण देने के लिए, एंथ्रोपिक ने 'प्रयास पैरामीटर' (Effort Parameter) पेश किया। यह डेवलपर्स को यह निर्दिष्ट करने की अनुमति देता है कि क्या उन्हें "कम" प्रयास (उच्च-मात्रा स्वचालन के लिए सबसे तेज़ और सबसे टोकन-कुशल प्रतिक्रिया) या "उच्च" प्रयास (जटिल विश्लेषण के लिए अधिकतम पूर्णता और तर्क की गहराई) की आवश्यकता है। मॉडल की आंतरिक प्रक्रिया पर यह समायोज्य नियंत्रण व्यवसायों को किसी भी दिए गए कार्य की सटीक आवश्यकताओं और बजट के लिए एआई के प्रदर्शन को सटीक रूप से तैयार करने की अनुमति देता है। मॉडल 200,000-टोकन संदर्भ विंडो (context window) बनाए रखता है, जो गहन दस्तावेज़ अनुसंधान के लिए पर्याप्त है। इसके अलावा, मॉडल में परिष्कृत संदर्भ प्रबंधन की सुविधा है, जो स्वचालित रूप से पिछले वार्तालाप इतिहास को सारांशित और प्राथमिकता देता है, जिससे लंबे उपयोगकर्ता सत्रों में और क्लॉड फॉर एक्सेल (Claude for Excel) तथा विभिन्न आईडीई भागीदारों जैसे प्रमुख एकीकरणों के माध्यम से अत्यधिक सुसंगत प्रदर्शन होता है।

Claude