OpenAI का GDPval बेंचमार्क: AI की आर्थिक क्षमता का मूल्यांकन

06:13, 26 सितम्बर

द्वारा संपादित: Veronika Radoslavskaya

On GDPval, expert graders compared outputs from leading models to human expert work. Claude Opus 4.1 delivered the strongest results, with just under half of its outputs rated as good as or better than expert work. Just as striking is the pace of progress: OpenAI’s frontier

4:24 PM · Sep 25, 2025

634

Read 13 replies

Watch on X

OpenAI ने 25 सितंबर, 2025 को GDPval नामक एक नया बेंचमार्क पेश किया है, जो विभिन्न उद्योगों में AI मॉडल के आर्थिक रूप से मूल्यवान कार्यों में प्रदर्शन का आकलन करता है। यह बेंचमार्क AI के विकास को अटकलों के बजाय साक्ष्य-आधारित प्रगति की ओर ले जाता है और यह ट्रैक करता है कि AI उन क्षेत्रों में उत्पादकता कैसे बढ़ाता है जो सीधे आर्थिक विकास में योगदान करते हैं।

शुरुआती परीक्षणों में, GPT-5 मॉडल ने 40.6% मामलों में उद्योग विशेषज्ञों के बराबर या उनसे बेहतर प्रदर्शन किया। इसकी तुलना में, 15 महीने पहले GPT-4o मॉडल ने केवल 13.7% का स्कोर किया था, जो GPT-5 के प्रदर्शन में लगभग तीन गुना वृद्धि दर्शाता है। हालांकि, एंथ्रोपिक के क्लाउड ओपस 4.1 मॉडल ने 49% कार्यों में खुद को बेहतर साबित किया, हालांकि OpenAI का मानना है कि यह मुख्य रूप से अधिक आकर्षक चार्ट बनाने की क्षमता के कारण था, न कि विशुद्ध रूप से बेहतर प्रदर्शन के कारण।

GDPval बेंचमार्क नौ प्रमुख उद्योगों, जैसे स्वास्थ्य सेवा, वित्त और विनिर्माण को कवर करता है, और इसमें सॉफ्टवेयर इंजीनियरों, नर्सों और पत्रकारों सहित 44 विभिन्न व्यवसायों को शामिल किया गया है। यह बेंचमार्क AI की समय बचाने और पेशेवरों को अधिक सार्थक कार्यों पर ध्यान केंद्रित करने में मदद करने की क्षमता का मूल्यांकन करता है। OpenAI के मुख्य अर्थशास्त्री, आरोन चटर्जी के अनुसार, AI मॉडल पेशेवरों को समय बचाने में मदद कर सकते हैं, जिससे वे अधिक महत्वपूर्ण कार्यों पर ध्यान केंद्रित कर सकें।

लागत-प्रभावशीलता के मामले में, GPT-5 API कॉल की लागत क्लाउड ओपस 4.1 की तुलना में काफी कम है। GPT-5 के लिए $1.25 प्रति मिलियन इनपुट टोकन और $10 प्रति मिलियन आउटपुट टोकन की लागत की तुलना में, क्लाउड ओपस 4.1 के लिए $15 प्रति मिलियन इनपुट टोकन और $75 प्रति मिलियन आउटपुट टोकन की लागत आती है।

OpenAI स्वीकार करता है कि वर्तमान GDPval परीक्षण, जो रिपोर्ट तैयार करने पर केंद्रित है, कई व्यवसायों के काम के पूरे दायरे को शामिल नहीं करता है। भविष्य में, कंपनी अधिक व्यापक परीक्षण विकसित करने की योजना बना रही है जो अधिक उद्योगों और इंटरैक्टिव वर्कफ़्लो को कवर करेगा। यह विकास AI के वास्तविक दुनिया के आर्थिक प्रभाव को मापने के लिए एक महत्वपूर्ण कदम है, जो व्यवसायों और नीति निर्माताओं को AI की क्षमताओं की स्पष्ट तस्वीर प्रदान करता है।

52 दृश्य

स्रोतों

新浪财经
OpenAI发布GDPval基准测试，评估AI模型在经济价值工作中的表现
How GPT-5 compares to Claude Opus 4.1

इस विषय पर अधिक लेख पढ़ें:

09 अप्रैल

AI स्टाइल एडिटर के कारण Grammarly पर 'पब्लिसिटी राइट्स' के उल्लंघन का मुकदमा

06 अप्रैल

माइक्रोसॉफ्ट ने OpenAI और Google को चुनौती देने के लिए तीन मालिकाना AI मॉडल लॉन्च किए

06 अप्रैल

माइक्रोसॉफ्ट और गूगल ने एआई आपूर्ति के लिए एसके हाइनिक्स के साथ बहु-वर्षीय समझौते किए

क्या आपने कोई गलती या अशुद्धि पाई?हम जल्द ही आपकी टिप्पणियों पर विचार करेंगे।